[背景音乐] 翻译: RyukaSuu |审阅: 19waa Coursera Global Translator Community 在回归模型中 我们讨论了通过拟合一个回归模型来预测房价 我们也用 误差平方和 来测量(模型)误差 这里 在分类问题中 我们的误差有所不同 因为我们在讨论对哪些输入我们(预测)对了 哪些错了 所以我们先来谈谈分类问题的误差测量 当我学习一个 分类器 的时候 我有一组输入数据 这些数据是一些句子 被标注了是正面或是负面情绪 就像在回归模型里一样 我们把数据分成训练集和测试集 我用训练集去训练我要学习的分类器 那个(学习)算法会学习每个字的权重 举例来说 它会习得 “good" ("好")这个词权重为1.0 "awesome"(”棒") 这个词的权重是 1.7 "bad" ("坏") 的权重为 -1.0 "awful" ("糟") 的权重是 -3.3 接下来 这些权重会被用来给测试集里面的句子打分 测试集用来评估我们的分类效果如何 所以我们来谈谈 评估 是怎么做的 先看看当我们做分类的时候 我们怎么测量分类误差 我们的测试集类似这样的形式: 寿司真不错 这是一个正面情绪的句子 我们要弄清楚 测试集里的句子我们正确分类了多少 错误有多少 所以我们要做的是 把"寿司真不错" 这个句子 交给分类器 那个学习过的分类器 但我们不会把真标签 ("正面情绪") 提供给这个分类器 我们要看看这个分类器是否正确分类 所以我们把真标签藏起来 所以分类器所得到句子的真标签是隐藏的 对这个句子 我们预测分类结果y帽是正面情绪 我们相信这个句子情绪为正面 因此我们的预测是正确的 所以 正确分类的个数 加一 我们再来看看另一个句子 另一个测试例子 比如说 食物还行吧 是一个负面情绪的句子 这句子情绪有点模糊 但在训练集里面 它的真标签 是负面 我把这句子输入给分类器 它的真标签是隐藏的 让我们看看分类器的结果是什么 在这个例子里 因为 "食物还行" 也可以被认为是正面的 因此有可能分类器认为它是正面情绪 这时它就犯了一个错误 因为真标签是 负面 所以出现了错误 分类错误数加一 所以我们现在有一个正确分类和一个错误分类 我们把测试集里每个句子都这么来一遍 有两种常见的测量分类效果的方法 其中一个是 误差率 误差率测量的是我们分类错了的句子比例 也就是 在所有被分类的句子里 我们犯了多少错误 用分类错误数 除以 总句子数 举例来说 假如我们有100个句子 我们分类错了10个 那么误差率就是 0.1 或说10% 可以看出误差率最低为0 就是说我一个错误都没犯的情况 另一个常见测量分类效果的方法 是 分类器的正确率 正确率正好是误差率的反面 和测量我们分类错了多少句子相反 它表示的是 我们测量正确的分类数目 所以正确率 就是 分类正确的句子数 除以 总句子数 如果说最好的错误率为0 那么最好的正确率就是1 就是我们所有句子都分类正确了 实际上这两者之间有本质的关系 误差率 = 1-正确率 误差率 = 1-正确率 [背景音乐] 翻译: RyukaSuu |审阅: 19waa Coursera Global Translator Community