[음악] 이 TF-IDF로 재밌는 일을 해보죠 먼저 여기 적어넣죠 직접 몇 사람 간의 거리를 손으로 계산합니다 이것의 목표는 거리를 통해 TF-IDF로부터 배울 점을 엿보기 위함이죠 세 사람을 예로 들어보죠 오바마는 이미 해봤죠 오바마 변수는 이미 갖고 있습니다 변수 둘을 새로 생성해보죠 클린턴으로는 인물 중 이름이 미국의 전 대통령인 빌 클린턴인 사람을 고릅니다 또 다른 인물을 들어보죠 베컴을 예로 들어보겠습니다 베컴은 유명한 영국의 축구선수인데 인물 중에서 이름이 데이비드 베컴인 사람을 골라냅니다 클린턴과 베컴을 골랐으니 이 두 사람과 바락 오바마 대통령 간의 거리와 계산해봅시다 이로써 우리는 오바마가 클린턴에 가까운지 베컴에 가까운지에 답할 수 있습니다 실수가 있었네요 오바마가 베컴보다 클린턴에 더 가까울까요? 두 벡터, 문서 사이의 유사도나 거리를 측정하는 방법은 다양합니다 TF-IDF를 계산합니다 클린턴, 오바마 문서 간의 거리를 계산합니다 GraphLab Create에 이미 구현된 거리 기준을 쓸 것이라 새로 구현할 필요가 없습니다 graphlab.distances까지 치고 탭을 누르면 여러 선택지가 뜹니다 강의에서 설명드렸던 코사인 거리, 자카드 유사도 등을 앞으로도 계속 보게 됩니다 이번엔 코사인 거리를 쓰도록 하지요 들어본 적이 있다면 참고로 코사인 유사도에선 숫자가 클수록 두 문서가 유사합니다 하지만 이건 거리라서 낮을수록 좋습니다 코사인 거리가 낮을수록 문서가 비슷합니다 그렇다면 오바마의 TF-IDF와 클린턴의 TF-IDF 간의 코사인 거리는 어떨까요? TF-IDF 열을 선택하고 0을 끝에 붙여주는데 이 표의 0번째 열이기 때문입니다 이 표에는 원소가 하나밖에 없지만 여전히 열을 지정해줘야 합니다 오바마의 TF-IDF를 클린턴의 TF-IDF와 비교합니다 여기도 0를 붙여줘야 하죠 코사인 거리는 0.83이 나왔습니다 그렇다면 같은 코사인 거리를 기준으로 오바마와 베컴 사이의 거리는 어떻게 될까요? 오바마 TF-IDF의 0번째 열과 베컴 TF-IDF의 0번째 열이죠 거리는 0.97로 계산됩니다 최대 거리가 1.0이니 예상대로 오바마는 베컴보다 클린턴에 훨씬 가깝습니다 몇 사람을 대상으로 직접 계산해봤는데 한 문서를 다른 문서와 비교하는 과정을 자동화하려면 어떻게 할까요? 우리의 경우 사람과 사람이 얼마나 비슷한지가 되겠죠 강의에서 에밀리가 최근접 이웃 모델과 이를 통한 문서 검색을 설명했습니다 오늘은 간단한 최근접 이웃 모델을 통한 멋진 문서 검색을 해보죠 [음악]