White Whale Studio

군집분석[Cluster Analysis] - 3 범주형, 순서형, 비율척도 변수 본문

IT Engineering/Data Mining

군집분석[Cluster Analysis] - 3 범주형, 순서형, 비율척도 변수

glorymind 2012. 4. 27. 13:56
반응형

 

 

범주형 변수 (Categorical Variables)

 둘이 상의 상태를 가질 수 있는 이항형 변수의 일반적인 형태이다.

예를 들면 무지개 색깔은 빨주노초파남보 인것처럼말이다.

범주형 변수의 상이성은 어떻게 계산할까?

 

두 객체 i와 j간의 상이성은 불일치의 비율을 이용하여 계산한다.

 

 

p는 변수의 총 개수 이고, m은 객체 i와 j가 같은 상태인 변수의 수, 즉 일치한 수를 뜻한다.

 

표 7.3을 예로 한 번 보자.

객체 번호에 따라서 서로 다른 속성 test 1, 2, 3이 다른 변수를 가진 상태이다.

우선 객체번호와 test-1 속성만 사용한다. 표에도 적혀져 있지않은가.

 

대충 유추해보면 범주형 변수의 변수는 code-A, code-B, code-C 일 것이다.

상이성 행렬을 계산하면 다음과 같다.

 

 

여기서 변수 p는 범주형변수 test-1만 있기 때문에 1이되고 d(i, j)는 객체 i와 j가 일치하면 0, 다르면 1이 되어서 결과적으로

과 같은 결과가 된다.

 

 

순서형 변수

 

이산 순서형 변수는 M개의 순서형 값의 상태가 의미를 가지고 순서화 되어있다는 것을 제외하고는 범주형 변수와 비슷하다.

 

예를 들어보자. 교수직등급을 예로들면 조교수, 부교수, 정교수 순으로 나열된다.

 

연속 순서형 변수는 값의 상대적인 순서는 중요하지만 크기 값은 크렇지 않다.

 

f를 고려한 상이성을 구하는 데에는 3가지 단계를 거친다.

 

예제)

표 7.3을 기반으로 진행한다. 이번에는 Test-2 부분을 보자.

test-2 에는 fair, good, excellent 라는 3가지 상태를 가지므로   이다.

 

test-2의 각 값들을 순위로 대치하면 4개의 객체는 3, 1, 2, 3의 순위를 가지게 된다.

 

순위별로 정규화하기위해 점수를 매기자면

1 : 0.0,

2 : 0.5,

3 : 1.0

로 대응할수 있다.

마지막으로 유클리드 거리를 이용해서 상이성 행렬을 구할 수 있다.

 

비율척도 변수(Ratio-Scaled Variables)

 

아...급 어려워진다.

 

비율척도 변수는 지수척도와 같은 비선형 측도에서의 양의 값을 갖는 측도를 만든다.

근사적으로는

이와 같은 식을 따른다고 한다.

A와 B는 양의 상수 이다.

예로는 박테리아 모집단의 성장, 방사성 원소의 부패 등이 포함됨

로그 연산을 적용해서 상이성 행렬을 마찬가지로 유클리드 거리를 통해 구한다.

 

 

반응형
Comments