[음악] 데이터 세트 사용에 앞서 먼저 해야 할 것은 단어수 벡터 만들기입니다 각 리뷰의 단어수 벡터를 만듭니다 보통 리뷰에서 단어를 분리하는 토큰화를 직접 구현해야 벡터를 만드는 게 가능한데 도구를 쓰면 명령어 하나로 간단히 단어수 벡터를 만들 수 있습니다 상품에 새로운 열, 단어수를 추가해 단어수를 셉니다 graphlab.text_analytics는 함수가 여러 개 달린 텍스트 분석 도구인데 count_words란 함수가 있으니 호출하죠 count_ngrams도 있어서 원한다면 바이그램이든 트라이그램이든 쓸 수 있습니다 입력으로는 같은 상품 SFrame을 넣습니다 리뷰 열의 단어수를 세라고 합니다 이제 실행하면, 다 됐네요 다시 상품 표를 보면 헤드에서 네 번째 열이 word_count로 되어있습니다 잠시 후 더 탐색해보기로 하지요 첫 리뷰에는 and란 단어 다섯 번, stink 한 번 포함되었네요 호의적이지 않은 이유가 이거겠지만 다른 것도 살펴보죠 [음악]