[음악] 라벨이 주어지지 않았다고 가정합니다 클러스터라는 관련 기사 그룹을 추론해내는 걸 목표로 합니다 입력은 벡터가 되겠지요 여기 그려져있는 모든 샘플은 단어수 벡터입니다 어휘에 단어 두 개밖에 없는 간단한 예를 보고 있지만요 벡터가 있고 단어 1과 단어 2가 있죠 이 축은 단어 2고 이 축은 단어 1이에요 물론 현실에선 어휘량이 아주 많아서 고차원 벡터를 다루게 되지요 고차원 공간에 샘플 그리기 어렵기 때문에 시각화를 위해 단순화된 2차원 공간을 보도록 하죠 수많은 문서가 어휘에서 두 단어 벡터로 표현되어 있습니다 이게 클러스터링 알고리즘의 입력이고 출력은 클러스터 라벨이에요 이 샘플을 포함한 여기 모든 샘플에는 빨간색 라벨이 붙죠 클러스터 라벨 1이라고 붙이죠 그냥 그렇게 부르겠습니다 클러스터 1 모든 문서에 라벨이 붙습니다 이건 라벨이 1이 될 거고요 여기 모든 샘플엔 다른 라벨이 붙을 겁니다 이건 클러스터 2라고 하지요 이쪽 샘플에 라벨 2를 붙여 주고요 이쪽 샘플에는 라벨 3이 붙습니다 이 알고리즘의 결과값이 되겠죠 이제 과거로 소급해서 클러스터 1의 기사를 보고 이 클러스터가 스포츠에 관한 것인지 확인할 수 있겠죠 여기 이 라벨은 소급해서 붙였다는 표시를 해둬야 겠네요 이게 비지도 학습의 예인데 라벨 없이 결과를 도출했기 때문이에요 가진 것이라고는 샘플이고 이 샘플 아래 잠재된 구조를 밝히려고 할 뿐입니다 다시 한 번 말하자면 입력은 단어수 벡터이고 출력은 말뭉치의 모든 문서에 대한 클러스터 라벨입니다 클러스터의 범위 설정을 어떻게 하지요? 모든 클러스터는 클러스터 중심을 기준으로 설정되기 때문에 X로 표시하죠 다음으로 클러스터의 형태인데 이 타원이 각 클러스터의 형태를 나타냅니다 그런데 이 샘플을 보면 초록색 클러스터에 속해야 하는지 빨간색 클러스터에 속해야 하는지 확실하지 않습니다 이 기사가 클러스터의 형태를 기반으로 다른 기사에 얼마나 유사한지를 보는 겁니다 모든 샘플의 점수를 클러스터 중심과 클러스터의 형태 기반으로 매깁니다 이 클러스터는 일종의 찌그러진 직사각형 형태를 띄고 있으므로 빨간색 클러스터가 아닌 초록색 클러스터에 속하게 됩니다 흔하게 쓰이는 또 다른 접근법은 클러스터의 형태가 아니라 클러스터 중심만을 봅니다 그리고 샘플의 거리를 계산해 잠깐 색을 바꿀게요, 이 접근법으로는 초록색, 빨간색 클러스터로의 거리만을 보게 됩니다 그럴 경우 이 기사가 초록색 클러스터에 속하는지 빨간색 클러스터에 속해는지 알기가 매우 어렵지요 하지만 여기 이 샘플의 경우 이 기준에 따르면 아주 명백하게 빨간색 클러스터에 속하겠죠