[음악] 클러스터 중심과의 거리만을 기준으로 삼는 클러스터링 알고리즘을 살펴보죠 여기 클러스터링하고 싶은 데이터가 있습니다 k-means라 불리는 이 알고리즘은 k 클러스터가 있다는 가정부터 시작합니다 그러니까 클러스터의 수를 미리 지정하지요 알고리즘이 k-means이라 불리는 이유는
k 클러스터가 있고 각 샘플을 클러스터로 할당할 때 클러스터의 평균인 클러스터 중심을 보기 때문입니다 알고리즘을 어떻게 초기화할지 알아보죠 처음으로는 클러스터 중심을 어디에 놓을지 초기화
하는 방법이 여러 개 있는데 나중에 더 깊이 알아보겠습니다 지금으로선 클러스터 중심을 무작위로 놓았다고 가정하죠 3-means 알고리즘에서요 첫 단계는 모든 샘플을 가장 가까운 클러스터 중심에 할당하는 것입니다 이 샘플은 빨간색 클러스터에 할당되죠 이 샘플들은 모두 초록색 클러스터,
초록색 중심에 할당됩니다 이 샘플들은 모두 파란색 중심에 가깝고요 이를 위해서 보로노이 조각화란 기법을 씁니다 클러스터 중심으로 범위 설정도 할 수 있는데 자홍색으로 다시 변환하죠 이것들이 클러스터 중심이죠 여기 영역을 설정합니다 영역은 새로운 샘플이 들어왔을 때 빨간색에 쓰기 나쁜 색이네요 다른 색이 뭐가 있었죠 흰색은 어떨까요? 좋네요, 흰색 새로운 샘플이 들어왔을 때 이 빨간 영역에 속한다면 빨간색 클러스터 중심에
가장 가깝다는 사실을 알 수 있습니다 이것이 색칠된 영역이 나타내는 바입니다 이게 알고리즘의 첫 단계였고요 이로써 얻어지는 결과는 클러스터에 할당된 샘플이죠 그런데 클러스터 중심을 무작위로 초기화했으니 데이터에 잠재된 구조를 제대로 표현하고 있다고
생각하긴 힘듭니다 그래서 이 과정을 반복, 할당된 샘플을 기반으로 클러스터 중심을 재조정합니다 여기 빨간색 클러스터에는 샘플 하나만 할당되어 있었죠 클러스터의 중심을 재조정하면 이전 샘플로 옮겨갑니다 초록색 클러스터의 경우 이전 클러스터 중심을 초록색 클러스터에 할당된 모든 샘플의 무게중심으로 옮깁니다 모든 샘플의 무게중심은 여기니 이게 새로운 클러스터 중심이 됩니다 모든 파란색 샘플에도 똑같이 적용합니다 이게 파란색 샘플들의 새로운 클러스터 중심이 되지요 이게 새로운 클러스터 중심 집합입니다 이제 보로노이 다이어그램을 다시 그려 샘플을 최근접 클러스터 중심에 할당합니다 이 작업을 수렴할 때까지 반복합니다 [음악]