[음악] 이 모듈에서 에밀리가 다양한 문서 검색 기법과 단어수, TF-IDF와 같은 표현법을 탐구했습니다 이 개념을 하나로 합쳐서 노트북을 만들고 이를 통해 문서 검색 시스템을 구축해 봅시다 TF-IDF를 써서요 곧바로 시작하죠 평소와 같이 IPython 노트북을 쓸 텐데 여기서는 제목을 문서 검색으로 고칩니다 됐죠 또 평소와 같이 헤더를 감추고 툴바를 감춰서 공간을 확보합니다 이제 GraphLab Create을 띄우죠 노트북에서 쓸 테니 import graphlab으로 불러들입니다 제일 먼저 데이터 불러오기부터 하죠 텍스트 데이터 불러오기 위키피디아의 재밌는 텍스트 데이터인데요 사람에 관한 페이지입니다 데이터 세트를 불러와서 사람은 SFrame 오브젝트가 될 텐데 graphlab.SFrame을 치고 파일이 필요한데 파일은 people_wiki.gl입니다 됐습니다 읽어왔고요 먼저 파일의 처음 몇 줄을 살펴보죠 바로 입력해서 보면 URI는 페이지의 위치라고 생각하면 됩니다 이건 사람 이름과 그 사람에 대한 페이지 텍스트입니다 꽤 많은 숫자의 사람이 있네요 데이터 세트에서 사람이 몇 명인지 봅니다 엔터를 입력하면 59000명이 있네요 꽤 괜찮은 세트인데 TF-IDF로 굉장히 흥미로운 문서 검색을 하게 됩니다 데이터 세트가 상당히 크긴 하지만요 먼저 데이터를 탐색합니다 #데이터 세트 탐색하기 어떤 텍스트가 들어있나 확인합니다 특정 인물 데이터 세트를 들여다보죠 현 미국 대통령인 바락 오바마의 페이지를 보도록 하죠 이 SFrame에서 이름 열이 바락 오바마인 인물을 찾습니다 엔터를 누르면 오바마란 새 변수가 생성되죠 빠르게 훑어보면 오바마 페이지 URL, 이름 바락 오바마, 페이지의 텍스트가 존재합니다 텍스트가 어떤지 조금만 파보죠 바락 오바마 바락 후세인 오바마는 1961년 8월 4일 태어났으며 미합중국의 제44대 대통령으로 재직 중이다 이런 종류의 데이터에 있을법한 자연스러운 텍스트죠 다른 인물 데이터 세트도 보죠 예를 들어 readLines 함수는 파일을 많은 영화에 출연한 조지 클루니란 배우가 있습니다 SFrame에서 고르는데 노트북에서 매번 사용했던 필터를 이용하죠 이름은 조지 클루니 그런 다음 조지 클루니의 텍스트를 출력합니다 조지 티모시 클루니는 1961년 출생입니다 그러니까 바락 오바마와 같은 나이군요 대통령은 아니지만요 조지 클루니는 미국의 배우, 작가, 프로듀서, 감독이자 사회운동가이다 여기까지네요 [음악]