[음악] 관심 문서 검색하는 방법 하나를 알아봤습니다 모든 기사를 훑어보고 우리가 정의한 기준에서 가장 유사한 기사를 찾습니다 다른 방법은 관련 문서를 클러스터링하는 것인데 예를 들어 스포츠, 국제 뉴스 등의 기사가 있을 때 이렇게 말뭉치를 구조화해두면 스포츠 기사를 읽고 있을 때 전체 말뭉치의 모든 기사를 살펴보기보다 재빨리 다른 스포츠 기사만을 검색할 수 있습니다 하지만 어려운 점은 이 기사들에 라벨이 없다는 것입니다 뉴욕 타임즈처럼 접속하면 교육 기사라고 알려주는 게 아니죠 기사가 있을 때 잠재된 기사 그룹을 발견하고자 합니다 목표는 이런 관련 기사 그룹, 클러스터를 발견하는 것인데 말씀드린 것처럼 스포츠, 세계 뉴스 등을 기사 집합으로 표현하는 것이죠 지금은 그냥 라벨이 주어진다고 가정합니다 누군가 말뭉치의 모든 기사, 적어도 대부분의 기사를 읽고 라벨을 붙였는데 이쪽 기사의 주제가 스포츠라고 합니다 그리고 이쪽은 세계 뉴스고요 이쪽은 연예입니다 이쪽은 과학이고요 라벨이 붙은 기사 모음이 있는 것이죠 검색 기사가 있고 라벨을 붙여서 클러스터로 묶으면 다중 클래스 분류 문제가 됩니다 검색 기사가 있고 해당 라벨이 뭔지 모르는 상태에서 라벨 붙은 문서가 여럿 있으니 말이죠 세계 뉴스, 과학, 스포츠, 연예, 기술 등의 라벨이 있는데 그중 기사가 어디 속하는지 분류하려는 거죠 맞나요? 이게 문제입니다 그렇다면 다중 클래스 분류 문제로 환원되죠 여기에 해당한다면 지도 학습 문제가 되겠죠 [음악]