White Whale Studio

군집분석[Cluster Analysis] - 2 이항형 변수[12.4.27] 본문

IT Engineering/Data Mining

군집분석[Cluster Analysis] - 2 이항형 변수[12.4.27]

glorymind 2012. 4. 27. 11:04
반응형

◎ 이항형 변수

이항형 변수라니까 웬지 또 어렵다. 그러나 영어로는 Binary Variable 이라고 하면 쉽지?

0과 1 상태만을 가지는 변수다.

0은 변수가 존재하지 않는다는 것을 의미하고, 1은 존재한다는 것을 의미한다.

예로 0일때는 안경 낀 아이, 1일 때는 안경 안낀 아이로 판단할수 있다는 거다.

 

대칭이거나 비대칭인 이항형 변수로 표현된 객체간의 상이성을 계산하는 방법을 설명한다.

대칭과 비대칭은 차이는 또 무엇인가?

 

대칭은 각 상태가 모두 동등한 가치가 있고 같은 가중치를 가질때를 말한다.

즉, 결과가 0이나 1 어느 쪽으로 표시되어도 상관없다.

예를 들면 남자와 여자를 상태로 하는 gender 속성정도랄까..

 

 

표 7.1을 보자.

모든 이항형 변수들이 같은 가중치를 가진것으로 여겨진다면 표 7.1과 같은 분할표를 얻을수있단다..

알파벳이 말하는 바는 대충 알겠지?

하나면 설명해보자.

r을 예로 들면 r의 경우 객체 i는 1이고 객체 j는 0인 변수의 수를 뜻한다.

변수의 총 개수는 p = q + r + s + t 이다.

 

표7.1을 기반으로해서 각 용어들을 살펴보자.

먼저 대칭 이항형 상이성(Symmetric binary dissimilarity)

대칭인 이항형 변수에 기초한 상이성을 뜻한다. 객체 i와 j간의 상이성을 측정하는 도구로 사용될수 있다.

 

비대칭인 경우는 어떤 경우일까? 즉 가중치가 다르다는 의미이겠지?

예를 들어서, 같은 이항형 변수인데도 불구하고 0과 1이 가지는 가중치가 다른 경우를 한번 살펴보자.

 

병원에서 종종 사용하는 양성, 음성 반응을 예로 들자면, 사례가 적은 양성 반응 같은 경우는 1로 표현(예를 들자면 그렇다는 거임) 하고 거의 대부분인 음성 반응같은 경우는 0으로 표현할수도 있다.

그렇다면 더 중요도를 가지는 것, 위의 사례에서 어떤 질병에 대한 양성 반응이 더 위험하니까 질병 i와 질병 j가 있다고 할 때 2개의 질병에서 둘다 양성 반응이 나오는 것, 하나씩에만 나오는것, 둘다 음성인것 중 어느 사례가 더 중요하겠는가?

물론 양성반응과 하나씩에만 나오는 것이다. 변수로 표현하면 (1, 1) (1,0) (0, 1) 이고

둘다 음성반응인 경우는 (0, 0) 인 것이다.

음성 반응은 정상인 경우이니까 비대칭 이항형 상이성을 계산할 때는 중요하지 않다고 간주되어 계산에서 무시된다.

따라서 계산할 때는 위의 공식(1)에서 t가 제외되어 다음과 같이 정의된다.

 

 

 

한편 상이성 대신 유사성에 의미를 두고 계산을 할수도 있다.

즉, i와 j의 비대칭 이항형 유사성 sim(i, j)는 다음과 같이 계산 될수 있다.

상이성과는 반대 개념이기 때문에 1에서 d(i, j)를 빼도 동일한 결과를 도출할수 있을 것이다.

 

 

여기서 쓰인 sim(i, j)는 자카드 계수라고 명명하기도 하고 다른 연구에서 많이 인용된다.

 

이항형 변수들간의 상이성을 예를 들어서 한번 살펴보자.

 

 

여기서 속성들을 잠깐 살펴보자. gender는 위에서 설명했듯이 대칭형 속성이고 나머지 속성들은 모두 비대칭인 이항ㅎ여 변수라고 할수 있겠다.

Y, P는 1로 N(NO / Nagative)는 0을 뜻한다.

위의 표를 표 7.1 에 적용한 표를 한번 그려보자.

 

Mary

Jack

 

1

0

Sum

1

2

0

2

0

1

 무시

1

Sum

3

0

 

 

2명만 콕 찝어서 비대칭 이항형 상이성을 계산해보자. Jack과 Mary만 테이블에 적용한 것이다.

쉽게 말해 누구누구가 덜 비슷한 병에 걸릴 것인가를 살펴보는 것이다.

 

공식은 (2)번을 사용한다.

바로 위의 테이블을 보면 q=2, r=0, s=1, t=무시 와 같다.

 

객체 선정은 사람을 대상으로 하는 것이기 때문에 위에서 예를 들었던 i, j는 사람이름으로 대체하면 된다.

즉, d(jack, mary)와 같은 형식으로다가.

구해봅시당..

 

 

이러한 결과값이 크면 클수록 높은 상이성을 가져서 서로 다른 병에 걸릴것이고,

낮을 수록 유사한 병에 걸릴수 있다는 것을 의미한다.

위의 예에서는 Jack과 Mary는 가장 유사한 병에 걸릴 확률이 높고, Mary와 Jim은 유사한 병에 걸리지 않을 것이라는 것이다.

 

 

반응형
Comments