White Whale Studio

군집 분석[Cluster Analysis] 주요 군집화 방법들 본문

IT Engineering/Data Mining

군집 분석[Cluster Analysis] 주요 군집화 방법들

glorymind 2012. 5. 4. 10:53
반응형

생각보다 많은 클러스터링 기법... 하나씩 찬찬히 살펴보자.

 

 

1. 분할 기법(Partitioning methods) :  대표적인 예로는 K-mean, K-medoid 기법이 있다.

K-mean 기법이야 워낙 유명하니까 대충 감이 잡힐것 같다.

 

상세히 살펴보자.

n 개의 객체 혹은 튜플이 주어졌을 때, 분할 기법은 의 조건을 만족하도록 군집을 나타내틑 데이터 분할을 k개 만든다.

 

즉 12개의 튜플이 있다고 할때 이 튜플들을 3개씩 묶게 되면 총 4개의 군집이 생성된다.

 

이 경우 n = 12, k = 4가 되는 것이다.

 

분할 기법에는 2가지 조건이 있다.

1) 각 그룹은 적어도 하나의 객체를 가지고 있어야 한다.

2) 각 객체는 정확히 하나의 그룹에 속해야 한다.

 

위의 조건에 근거하여 분할 기법은 분할의 수 k에 대해 초기 분할을 생성한다.

다음으로 분할을 좀더 정교하게 하기 위해 객체를 본래의 그룹에서 다른 그룹으로 이동시키는 반복적인 재배정 기법을 사용한다.

좋은 분할을 위한 일반적인 기준은, 같은 군집 안에 있는 객체들은 "가깝게" 혹은 서로 관련되어 있는 반면, 다른 군집 객체들끼리는 "멀리 떨어져 있게" 와 같이 다른 것이다.

물론, 이러한 품질을 판단하는데에는 다양한 기준이 있을 수 있다.

 

2. 계보적 기법(Hierarchical method) : 영어 단어로 인식을 하는 쪽이 좀더 쉬울 것 같다.

반응형
Comments