일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- eventhandler
- c#
- Excel Cell Format
- DrawRectangle
- WPF
- NUnit
- solid
- Json.NET
- 시
- GDI+
- 객체지향
- MDB Select
- 경기도 버스
- C# 파일 암/복호화
- 경기도 버스정보시스템
- MDB Connect
- 공공 데이터 포털
- C# MDB
- eventargs
- Winform
- C# MDB Handle
- delegate
- MVC
- DrawEllipse
- 디자인 패턴
- sqlite3
- 버스 API
- JSON
- TDD
- Cell Border Style
- Today
- Total
White Whale Studio
군집분석[Cluster Analysis] - 3 범주형, 순서형, 비율척도 변수 본문
군집분석[Cluster Analysis] - 3 범주형, 순서형, 비율척도 변수
glorymind 2012. 4. 27. 13:56
범주형 변수 (Categorical Variables)
둘이 상의 상태를 가질 수 있는 이항형 변수의 일반적인 형태이다.
예를 들면 무지개 색깔은 빨주노초파남보 인것처럼말이다.
범주형 변수의 상이성은 어떻게 계산할까?
두 객체 i와 j간의 상이성은 불일치의 비율을 이용하여 계산한다.
p는 변수의 총 개수 이고, m은 객체 i와 j가 같은 상태인 변수의 수, 즉 일치한 수를 뜻한다.
표 7.3을 예로 한 번 보자.
객체 번호에 따라서 서로 다른 속성 test 1, 2, 3이 다른 변수를 가진 상태이다.
우선 객체번호와 test-1 속성만 사용한다. 표에도 적혀져 있지않은가.
대충 유추해보면 범주형 변수의 변수는 code-A, code-B, code-C 일 것이다.
상이성 행렬을 계산하면 다음과 같다.
여기서 변수 p는 범주형변수 test-1만 있기 때문에 1이되고 d(i, j)는 객체 i와 j가 일치하면 0, 다르면 1이 되어서 결과적으로
과 같은 결과가 된다.
순서형 변수
이산 순서형 변수는 M개의 순서형 값의 상태가 의미를 가지고 순서화 되어있다는 것을 제외하고는 범주형 변수와 비슷하다.
예를 들어보자. 교수직등급을 예로들면 조교수, 부교수, 정교수 순으로 나열된다.
연속 순서형 변수는 값의 상대적인 순서는 중요하지만 크기 값은 크렇지 않다.
f를 고려한 상이성을 구하는 데에는 3가지 단계를 거친다.
예제)
표 7.3을 기반으로 진행한다. 이번에는 Test-2 부분을 보자.
test-2 에는 fair, good, excellent 라는 3가지 상태를 가지므로 이다.
test-2의 각 값들을 순위로 대치하면 4개의 객체는 3, 1, 2, 3의 순위를 가지게 된다.
순위별로 정규화하기위해 점수를 매기자면
1 : 0.0,
2 : 0.5,
3 : 1.0
로 대응할수 있다.
마지막으로 유클리드 거리를 이용해서 상이성 행렬을 구할 수 있다.
비율척도 변수(Ratio-Scaled Variables)
아...급 어려워진다.
비율척도 변수는 지수척도와 같은 비선형 측도에서의 양의 값을 갖는 측도를 만든다.
근사적으로는
이와 같은 식을 따른다고 한다.
A와 B는 양의 상수 이다.
예로는 박테리아 모집단의 성장, 방사성 원소의 부패 등이 포함됨
로그 연산을 적용해서 상이성 행렬을 마찬가지로 유클리드 거리를 통해 구한다.
'IT Engineering > Data Mining' 카테고리의 다른 글
k-medoids(중앙객체) 방법과 CLARANS (0) | 2012.05.09 |
---|---|
군집 분석[Cluster Analysis] 분할방법- K-means (0) | 2012.05.09 |
군집 분석[Cluster Analysis] 주요 군집화 방법들 (0) | 2012.05.04 |
군집분석[Cluster Analysis] - 2 이항형 변수[12.4.27] (0) | 2012.04.27 |
군집분석[Cluster Analysis] - 1 개념 및 데이터 유형 (0) | 2012.04.24 |