[背景音乐] 翻译: RyukaSuu |审阅: 19waa Coursera Global Translator Community 最常见的一种分类器 是线性分类器 那么 让我们来多了解一点 这里的问题是 怎么来表示分类器呢 我们从一些句子入手 比如 我们情感分类那个例子中 这个分类器 你预测这个语句是积极的 还是消极的 这个分类器是怎么工作的呢? 在这个情感分析的例子中 你可以想象一个简单的 阈值分类器 假设我们输入一条语句 有人告诉我 这个句子里都是积极的单词 比如说 极好的 非常棒的 令人惊喜的 等等 同样 这里有一堆消极单词的集合 比如 坏的 极差的 令人作呕的食物 等等 我现在可以做的就是 输入这条语句 计数这个句子中有多少个积极的单词 有多少个消极的单词 如果积极单词的数目 比消极单词的数目多 这个就是一个积极的语句 如果消极的单词比积极的多 这就是一个消极的语句 举个例子,如果输入语句是 这里有最棒的寿司(一个积极单词“great”) 这里的食物非常棒(第二个积极单词“awesome”) 但是这里的服务很糟糕(一个消极单词“terrible”) 有两个积极的单词和一个消极的单词 消极的单词数目多 因此给出一个积极的预测 阈值分类器有一些局限 这些积极和消极的单词实际上是从哪获得的? 他们从某个地方就这么神奇的出现了 不仅如此 这些单词代表的积极和消极的程度也不同 “great”比“good”的词性更积极 你想要知道“great”,“good”,“amazing”哪个词性更强 “amazing”的词性要比“great”强吗? 谁知道呢? 我们怎么来考虑不同单词的权重呢 单个的单词无法用来做好分类 就拿“good"来说 食物是好的 是积极的语句 食物是不好(”not good“)的 就是消极的语句了 这些问题都是需要考虑进去的 积极和消极的单词表从哪获得 我们怎么对他们进行权值分配 是学习分类器的首要两个任务 我们后面会进行讨论 解决像“good”和“not good”这样的问题 需要考虑更复杂的特征 而不是基于单个单词 我们在章节的最后会进行讨论 线性分类器 不是简单地获取一个积极和 消极单词的列表 而是对他们加入权值 例如,“good”也许会有一个1的权值 而“great”也许会有一个1.5的权值 “awesome”也许会有一个更大的权值2.7 而“bad”也许会有一个-1的权值 “terrible”也许会有一个-2.1的权值 “awful”也许会有一个-3.3的权值 “awful”确实很糟糕 用这种方式 “really”与情感无关 同样的 “the”,“we”,“where”,“restaurant”这些单词既出现在积极语句 也出现在消极的语句中 因此他们的权值为0 假设有人告诉你所有单词的权值 我们来讨论一下怎么利用这些单词和权值 训练分类器 给定这些单词的权值 我们要确定一个句子是积极的还是消极的 我们这里用的是评分的思想 拿这个句子为例 寿司很好 食物非常棒 但是服务比较糟糕 我们来对这个句子进行评分 我们来计算一下 输入语句x的评分 在这个例子中 “great”的权值是+1.2 “awesome”的权值是1.7 “terrible”的权值是-2.1 因此最后的评分是 2.9 - 2.1 结果是0.8 这个句子的评分比0大 我们将预测这个句子为积极的语句 如果评分是负的 输入x的评分小于0 我们就预测这个句子是消极的语句 分类器就是这样工作的 如果你知道每一个单词的权值 这个分类器就叫做 线性分类器 因为输出是输入的权值的简单求和 仅仅是权值而已 不管出现什么样的特征 不管出现什么样的单词 我们从这个简单的线性分类器开始讨论 总之 给定一句话 和单词的权值 我们可以计算这句话的评分 评分由出现在句子中的权值之和计算而来 然后我们看一下这个评分是否大于0 如果大于0我们就预测输出是正类 如果评分小于0 我们就预测为负类 这就是线性分类器 [背景音乐] 翻译: RyukaSuu |审阅: 19waa Coursera Global Translator Community