[음악] 회귀 모듈에서는 모델의 오차와 정확도 간의 관련성을 알아봤습니다 이번엔 학습이 필요한 데이터 양을 기준으로 한 관련성을 알아보죠 어느 정도의 데이터를 배워야 하는지 탐구합니다 기계학습에서는 어렵고도 복잡한 질문이죠 물론 데이터의 질만 괜찮다면 데이터는 많을수록 좋습니다 질나쁜 데이터는 아무리 많아도 질좋고 깔끔한 소수의 데이터 샘플보다 못합니다 필요 데이터 양을 분석하는 이론적인 기법이 있습니다 전반적인 경향은 알려주지만 실무에서 사용할 정도로 정밀하지 않습니다 실무에서는 오차의 크기와 종류를 알아내기 위한 경험적 기법들이 있습니다 이어지는 강의에서 이런 기법들을 자세히 다루지만 여기서도 분류에서 어떤 역할을 하는지 안내와 통찰을 제공하고자 합니다 데이터와 품질 관련성의 중요한 표현법의 하나는 학습곡선이라 합니다 학습곡선은 훈련 데이터 양과 오차의 관련성을 나타냅니다 테스트 오차를 알아보죠 훈련 데이터가 아주 적다면 테스트 오차는 클 것입니다 훈련 데이터가 많다면 테스트 오차는 작겠죠 데이터를 추가하면 할수록 곡선이 좋아질 겁니다 점을 통과하지 않았네요 지우겠습니다 됐죠 데이터를 추가할수록 품질이 나아지는 학습곡선의 예입니다 한계가 있나고요? 데이터를 추가하면 품질이 무한히 좋아지나요? 데이터를 추가할수록 오차가 줄어들 겁니다 하지만 여전히 간극이 있습니다 이 간극이 0가 될지 보면 답은 일반적으로 아닙니다 이 간극은 편향이라 불립니다 이 편향, 간극이 뭔지 설명하죠 직관적으로 데이터가 무한하더라도 테스트 오차가 0이 되지는 않습니다 왜인지 잠시 생각해보죠 복잡한 모델일수록 편향이 적은 경향이 있습니다 우리가 만들 감성 분석 분류기에서 굉장하다, 좋다, 훌륭하다, 최악이다, 끔찍하다 같이 단어 하나만 사용하면 성능이 그럭저럭 나옵니다 꽤 괜찮을지도 모르지만 대체로 그럭저럭이죠 하지만 무한한 데이터, 전세계의 모든 데이터가 있더라도 초밥은 좋지 않았다는 문장을 제대로 판별하지 못할 것입니다 단어짝을 보지 않기 때문이죠 좋다라는 단어 하나만 봅니다 예를 들어 단어 조합을 고려하는 복잡한 모델은 바이그램 모델이라고 하는데 좋지 않다 같은 연속적인 단어짝을 고려합니다 이런 모델에는 더 많은 파라미터가 필요한데 가짓수가 많기 때문이죠 성능도 나은데 좋다에 대한 파라미터는 1.5, 좋지 않다는 -2.1를 써서요 그러면 방금의 문장, 초밥은 좋지 않았다는 제대로 판별하게 됩니다 편향이 줄어듭니다 단어만으론 표현하지 못했던 문장을 표현해서 더 정확해지는 것이죠 하지만 더 많은 데이터가 필요한데 파라미터가 더 많기 때문입니다 좋다라는 파라미터뿐만 아니라 좋지 않다는 파라미터와 모든 단어 조합이 있습니다 모델에 파라미터가 많을수록 일반적으로 학습 데이터가 더 필요합니다 다시 예제로 돌아가보죠 훈련 데이터의 양이 테스트 오차에 미치는 영향에 대해 알아봤습니다 단어 하나만 가지고 만드는 모델을 설명하죠 이게 단어짝 기반의 분류기와 연관이 있냐고요? 바이그램 기반 분류기는 데이터가 적을 때 성능이 좋지 않은데 더 많은 파라미터를 적합화해야 하기 때문이죠 하지만 데이터가 많으면 성능이 좋아지는데 초밥은 좋지 않았다 같은 문장을 잡아낼 수 있기 때문이죠 그러므로 예상되는 반응은 다음과 같습니다 어느 점에서 바이그램 모델이 유니그램 모델을 성능으로 넘어서게 됩니다 하지만 바이그램 모델에도 편향이 있습니다 적기는 하지만 아직 있죠 [음악]