[음악] 문서 검색에서의 클러스터링이란 무엇인가에 대해 철저하게 알아봤습니다 사실 클러스터링이 유용한 분야는 수도 없이 많은데 그중 몇 개를 설명드리고자 합니다 그중 한 응용 분야는 이미지 검색입니다 구글 이미지 검색에 가서 바다란 단어를 입력했다고 하죠 그럴 경우 미리 모든 이미지를 바다, 핑크색 꽃, 개, 노을, 구름 등의 카테고리별로 구성해놓는 게 무척 유리하겠죠 그러므로 클러스터링은 구조적 검색에 아주 요긴합니다 다른 응용으로는 환자를 건강 상태에 따라 나누는 것을 생각할 수 있습니다 목표는 여러 질병과 함께 모집단의 특징을 잘 나타내는 것입니다 예를 들어 발작 환자가 아주 많이 있다고 하죠 세 환자의 뇌인데 발작 활동을 측정하는 기록 설정이 서로 다릅니다 장시간에 걸쳐 각 환자가 겪는 여러 종류의 발작 기록이 주어집니다 색칠된 사각형은 발작 기록을 나타냅니다 환자 사이에 비슷한 유형의 발작이 존재할지도 모릅니다 세 환자의 발작 기록을 전부 모아 클러스터링해봅니다 각 유형의 발작을 이렇게 판별한다면 발작 유형에 대한 이해를 바탕으로 치료 기술의 향상이 가능해집니다 다른 응용으로 아마존의 상품 추천도 들 수 있죠 예를 들어 아마존에는 수많은 공급업체가 상품을 올립니다 상품 라벨도 붙이죠 유아용 침대를 팔고 싶은 사람은 합리적인 가구 라벨을 붙입니다 그러면 가구 카테고리에 나타나게 되겠죠 하지만 구매자 목록을 보면 어떨까요? 구매 이력을 살펴보니 비슷한 이력을 가진 다른 사람들이 유아용 카시트도 구입했다고 하면 유아용 침대에 대해서도 가구가 아니라 유아용품이란 라벨을 붙이는 게 더 나을지 모릅니다 이렇게 관련 상품 그룹 발견 외에도 품목의 구매 이력을 바탕으로 관련 사용자 그룹을 발견할 수 있습니다 이렇게 사용자 대상 상품추천에 활용할 수 있습니다 마지막으로 웹 검색 결과 구조화를 떠올려 봅시다 그러면, 예를 들어, 검색 단어는 눈처럼 여러 의미를 가질 수 있습니다 (원문은 cardinal) 눈을 구글에 입력하면 하늘에서 내리는 눈, 사람이나 동물의 눈을 의미할 수도 있죠 이 모듈에서 알아본 바와 같이 내용에 따라 기사를 구조화하면 검색 결과를 향상시킬 수 있습니다 응용 분야는 이 외에도 많습니다 또 하나 흥미로운 주제는 여러 지역이 있을 때 비슷한 지역을 판별하는 게 유용할 때가 꽤 있습니다 그중 하나는 아주 좁은 지역의 주택 가격을 추정하는 것이지요 이 경우 좁은 지역이라면 샘플이 없거나 아주 적다는 게 난제입니다 추정의 기반으로 삼을 주택이 없기 때문에 특정 시점에서 주택 가격을 추정하기가 매우 어렵습니다 하지만 주택 유형, 가격 움직임이 비슷한 지역을 찾는다면 그 지역의 정보를 활용해 데이터가 없는 지역의 주택 가격 추정도 가능해집니다 지역들의 클러스터를 발견하고 클러스터 간의 주택 판매 등의 정보 공유를 통해 추정을 개선합니다 제가 설명드리는 방법은 유사한 경향의 지역을 클러스터링하고 클러스터 내부의 정보를 공유합니다 관련 지역 발견이란 개념은 강력 범죄 예측을 통해 경찰력 배치 계획 수립에도 도움을 줄 수 있습니다 유사한 범죄 동향을 가진 여러 지역들을 찾아 강력 범죄율 예측을 개선하고 이 정보를 통해 경찰력을 적절히 배치합니다 [음악]