[음악] 이게 우리가 작업할 데이터죠 상당히 깔끔한 데이터 세트인데 좀 더 살펴봅시다 강의에서 에밀리가 단어수 구축과 그에 따르는 어려움에 대해 알아봤었죠 단어수를 짧게 훑어보는 것으로 시작하죠 #오바마 문서의 단어수 세기 바락 오바마에 대한 위키피디아 문서입니다 먼저 빠르게 문서의 단어수를 세어보죠 생성한 오바마 변수에 단어수라는 열을 추가합니다 단어수를 담을 공간입니다 단어수를 세려면 간단히 분류 강의의 감성분석 노트북에서 했듯이 단어수 세기를 위한 함수를 스스로 작성해도 되지만 텍스트 분석 도구상자에 친절히 준비되어 있습니다 빠른 시작을 위해 이걸 쓰죠 count_words를 호출합니다 여기 count_ngrams 보이시죠 우리는 그냥 단어수를 쓸 건데, 유니그램, 즉 단어 하나죠 입력으로 오바마 텍스트를 넣습니다 이제 됐죠 잠시 살펴봅시다 오바마 단어수를 출력합니다 됐지요 오바마 단어수를 출력했습니다 operations 한 번, represent 한 번, office 두 번, unemployed 한 번 등장합니다 이것만으론 딱히 와닿지 않습니다 이 데이터를 다루게 될 텐데, 그전에 다른 데서도 써먹을 만한 데이터 공학 요령을 하나 알려드리죠 다음은 ##오바마 문서의 검토할 겁니다 이해를 돕기 위해 설명하자면 단어수는 단순히 파이썬 사전에 불과합니다 키가 주어지고, 여기선 단어죠 그가 태어난 호놀룰루, 날씨, 결혼 등입니다 그리고 1, 2, 3, 5, 30 같은 총계가 각 단어의 빈도를 나타냅니다 이걸 정렬하겠습니다 단어를 정렬하려면 첫 번째 열은 단어, 즉 사전의 키이고, 두 번째 열은 총계인 표 형태로 변환해야 합니다 그런 다음 표를 정렬합니다 파이썬으로 이를 달성하는 방법은 다양하지만 간단한 요령을 하나 보여드리죠 obama_word_count_table이란 표를 생성합니다 오바마 표의 모든 열에서 word_count를 선택합니다 이렇게 하면 출력이 좀 더 깔끔해지죠 물론 전체 표를 출력해도 됩니다 그런 다음 stack 함수를 호출합니다 이 stack 함수는 무척 유용합니다 사전이 들어있는 SFrame의 열을 계속해서 쌓아 여러 열로 만듭니다 이 경우 열 둘이지요 단어가 하나, 총계가 하나입니다 word_count이란 열을 쌓습니다 우리에게 필요한 열이죠 그리고 새로운 열을 만듭니다 호칭해야 하니 이름을 지어주죠 new_column_name에 두 개가 들어가는데 하나는 단어고 다른 하나는 총계입니다 실행해서 표를 보면 obama_word_count_table.head로 처음 몇 줄만 출력하면 normalize, sought, combat 등이 출력되는데 정렬이 되어있지 않습니다 정렬된 표가 아니죠 다음으로는 총계 기준으로 표를 정렬합니다 예전에 봤었죠 아주 간단합니다 obama_count_table에서 sort 함수를 호출합니다 count를 인자로 주고요 총계 기준으로 정렬 오름차순을 거짓으로 설정합니다 1,2,3으로 이어지는 오름차순 대신에 내림차순으로 정렬하는 거죠 3, 2, 1 엔터를 누르면 가장 흔한 단어는 the, 그다음 in, and, of, to, his, Obama 순이네요 그리고 act, a, he가 나오고요 별로 도움이 되는 정보는 아닙니다 강의에서 에밀리가 이런 도움이 안 되는 단어가 주요 단어를 밀어내는 현상에 대해 다뤘죠 TF-IDF의 개념을 소개하는 계기가 이거였습니다 [음악]