[음악] 분류기에서 가장 흔한 종류는 선형 분류기입니다 이에 대해 조금 알아보도록 하죠 분류기를 어떻게 나타낼 것인지가 문제입니다 예를 들어 감성분석에서 특정 문장을 가져다 분류기에 넣어주면 긍정적인 문장인지 부정적인 문장인지 예측이 반환됩니다 분류기가 어떻게 작동하지요? 감성분석에서 간단한 역치 분류기를 떠올려 보죠 문장과 함께 대단하다, 굉장하다, 좋다, 놀랍다 등 온갖 종류의 긍적적인 단어가 주어집니다 부정적인 단어도 주어집니다 별로다, 끔찍하다, 역겹다 등등 그리고 나서 문장에 긍정적인 단어와 부정적인 단어가 몇 개씩 있는지 셉니다 그리고 긍정적인 단어가 부정적인 단어보다 많으면 긍정적인 문장이고 부정적인 단어가 많으면 부정적인 문장입니다 입력 문장, 초밥이 훌륭했다는 긍정이니 +1 음식이 굉장했다 +2 서비스는 최악이었다 -1. +2에 -1이니 합은 긍정이고 긍정적인 예측을 나타냅니다 역치 분류기에는 한계도 있습니다 긍정적, 부정적 단어 목록이 어디서 나왔죠? 어디선가 마법처럼 나타났는데다 단어의 긍정과 부정에는 정도가 있습니다 훌륭하다는 좋다보다 긍정적입니다 훌륭하다, 좋다, 굉장하다 사이에서 굉장하다가 훌륭하다보다 낫나요? 앞으로 어떻게 될지는 모르니까요 그걸 어떻게 알아내고, 서로 다른 단어에 어떤 가중치를 주나요? 단어 하나만으론 제대로 된 분류를 하기 충분하지 않을 수 있습니다 좋은 음식, 음식은 좋았다는 긍정입니다 하지만 음식이 좋지 않았다는 부정이죠 이런 문제들을 처리해야 합니다 긍정, 부정적인 단어가 어디서 오는지와 가중치 정하는 법은 분류기를 학습함으로써 익힐 수 있는데 다음으로 설명하죠 좋다 나쁘다의 문제는 단어 하나보다 복잡한 특징을 사용함으로써 해결합니다 이 모듈 끝 무렵에 설명합니다 선형 분류기는 긍정적, 부정적인 단어 목록만 아니라 가중치를 부여합니다 예를 들어 좋다는 가중치 1, 훌륭하다는 가중치 1.5, 굉장하다는 높은 가중치 2.7입니다 나쁘다는 가중치 -1, 최악이다는 가중치 -2.1 끔찍하다는 -3.3쯤 될 거 같은데 끔찍한 건 정말 끔찍하기 때문이죠 감성과 관계 없는 단어도 있는데 우리, 장소, 레스토랑 같은 단어는 긍정, 부정적인 문장에 모두 출현하기 때문에 가중치가 0입니다 누군가 각 단어의 가중치가 얼만지 전부 알려줬다고 칩시다 나중에 분류기가 이를 어떻게 학습하는지 배울 겁니다 가중치가 주어졌을 때 문장이 긍정인지 부정인지 어떻게 알아낼까요? 점수 채점이란 개념을 도입합니다 예를 들어 이 문장을 보죠 초밥은 훌륭했다, 음식은 굉장했다, 하지만 서비스는 최악이었다. 이 문장의 점수를 매겨보죠 입력 문장 x의 점수를 계산합니다 훌륭하다 +1.2 굉장하다 1.7 최악이다 -2.1 총합은 2.9-2.1, 0.8이죠 중요한 점은 문장의 점수가 0보다 크니 긍정적인 문장이라고 예측한다는 것입니다 반대로 0보다 작다면 부정적인 문장이라고 예측했겠죠 선형 분류기의 작동방식입니다 각 단어의 가중치를 알면 되는데 선형 분류기가 불리는 이유는 결과물이 기본적으로 입력의 가중치 합이기 때문입니다 입력에서 어떤 특징, 단어가 나타나는지 세기만 하면 됩니다 간단한 선형 분류기를 알아봤습니다 요약하자면 문장과 문장의 가중치가 주어졌을 때 문장에 등장하는 단어의 가중치 합인 점수를 계산합니다 점수가 0보다 크다면 y^은 긍정적입니다 점수가 0보다 작으면 부정적이라고 예측합니다 선형 분류기에 대해 알아봤습니다 [음악]