일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- Winform
- solid
- DrawRectangle
- WPF
- GDI+
- 공공 데이터 포털
- MDB Select
- 디자인 패턴
- DrawEllipse
- C# MDB
- 버스 API
- JSON
- Json.NET
- MDB Connect
- eventhandler
- MVC
- delegate
- Cell Border Style
- TDD
- 객체지향
- sqlite3
- eventargs
- NUnit
- 경기도 버스
- Excel Cell Format
- 시
- 경기도 버스정보시스템
- C# MDB Handle
- C# 파일 암/복호화
- c#
- Today
- Total
White Whale Studio
n 개의 객체를 가진 데이터 집합 D와 군집 수로 k가 주어진다면, 분할 알고리즘은 객체들을 나누어 k개의 군집으로 나눈다. 결과적으로 군집 내의 객체들은 유사하고, 다른 군집의 객체들끼리는 그렇지 않도록하는 것이 최종목적이 되겠다. 가장 잘 알려진 일반적인 분할 방법은 k-means와 k-mediods 이다. k-평균, k-중앙객체 라고도 한다. 먼저 k-means에 대해 살펴보자. k-means는 개괄적으로 표현하자면, 간단하지만 단점이 좀 있는 클러스터링 방법이다. 그도 그럴것이 초기값으로 k가 주어져야만 하고, 초기 설정값에 따라서 클러스터링 결과가 많이 바뀌기 때문에 여러가지 방면에서 약점이 있다. 상세하게 조금씩 살펴보자. 진행 순서는 다음과 같다. 1. 군집의 평균이나 중심값으로 객체들에서 ..
생각보다 많은 클러스터링 기법... 하나씩 찬찬히 살펴보자. 1. 분할 기법(Partitioning methods) : 대표적인 예로는 K-mean, K-medoid 기법이 있다. K-mean 기법이야 워낙 유명하니까 대충 감이 잡힐것 같다. 상세히 살펴보자. n 개의 객체 혹은 튜플이 주어졌을 때, 분할 기법은 의 조건을 만족하도록 군집을 나타내틑 데이터 분할을 k개 만든다. 즉 12개의 튜플이 있다고 할때 이 튜플들을 3개씩 묶게 되면 총 4개의 군집이 생성된다. 이 경우 n = 12, k = 4가 되는 것이다. 분할 기법에는 2가지 조건이 있다. 1) 각 그룹은 적어도 하나의 객체를 가지고 있어야 한다. 2) 각 객체는 정확히 하나의 그룹에 속해야 한다. 위의 조건에 근거하여 분할 기법은 분할의 수..
범주형 변수 (Categorical Variables) 둘이 상의 상태를 가질 수 있는 이항형 변수의 일반적인 형태이다. 예를 들면 무지개 색깔은 빨주노초파남보 인것처럼말이다. 범주형 변수의 상이성은 어떻게 계산할까? 두 객체 i와 j간의 상이성은 불일치의 비율을 이용하여 계산한다. p는 변수의 총 개수 이고, m은 객체 i와 j가 같은 상태인 변수의 수, 즉 일치한 수를 뜻한다. 표 7.3을 예로 한 번 보자. 객체 번호에 따라서 서로 다른 속성 test 1, 2, 3이 다른 변수를 가진 상태이다. 우선 객체번호와 test-1 속성만 사용한다. 표에도 적혀져 있지않은가. 대충 유추해보면 범주형 변수의 변수는 code-A, code-B, code-C 일 것이다. 상이성 행렬을 계산하면 다음과 같다. 여기..