我们已经学习了如何设置开发集和评估指标这就好比确定你的团队要瞄准的靶子可有时候项目进行到一半你可能会发现靶子放错了位置这时候就应该移动你的靶子让我们看一个例子假设你决定构建一个猫分类器用于寻找猫的图像并展现给爱猫的用户
你决定使用分类误差作为评估指标算法A和算法B分别有 3%和5%的误差看起来算法A表现得更好可是当你实际测试和检查这些算法时发现算法A由于某些原因会将很多色情图片也分类为猫假如你将算法A投入使用用户们的确可以看到更多猫的图片毕竟它只有3%的误差可是与此同时该算法也会向用户展示一些色情图片不论是对你的公司还是客户来说这都是无法容忍的相比之下算法B有5%的误差虽然能得到的猫的图片较少但是不会有色情图片所以无论是从你的公司的角度还是从用户的角度来看算法B实际上是一个更好的算法因为它不会让色情图像通过在这个例子中尽管算法A在评估指标上表现得更好只有3%的误差可实际上这个算法很糟糕在这个例子中评估指标和开发集都倾向于选择算法A 因为根据评估指标算法A的误差更低效果更好然而你和你的用户更倾向于选择算法B 因为它不会让色情图片通过在这种情况下当你的评估指标无法正确地对算法的优劣进行排序时就像此例中错误地判断算法A更优秀这时你就应该修改评估指标可能也要修改开发集或测试集在这个例子中所使用的分类误差指标可以写为如下的形式 1除以m_dev m_dev是开发集中的样例数量从i等于1到m_dev 对开发集中第i个样例的预测是否不等于实际标签进行求和 y_pred这个符号表示预测值取值为0或1 这个符号表示一个函数用来统计使括号里的式子为真的样例的数量这个公式统计了分类错误的样例的数量这个评价指标的问题在于它对色情图片和非色情图片一视同仁然而实际上你不希望分类器错误地标记色情图片例如将一张色情图片分类为猫然后展现给毫无防备的用户用户看到这样的图片一定会非常不满改良这个评估指标的一种方法是在这里加入一个权重项称为w^(i) 当x^(i)不是色情图片时令w^(i)=1 当图片是色情图片时令w^(i)=10 或者更大比如100 这样你对色情图片的样例赋予了更大的权重当算法错误地将色情图像分类为猫时将产生更大的误差值在这个例子中我们为色情图像的分类加上了10倍的权重如果需要归一化常数这一项会变成对w(i)求和从而令误差值仍在0和1之间。这里权重的细节并不重要实际上要实现这个权重你需要检查一遍开发集和测试集将其中的色情图片标记出来这样才能实现这个权重函数需要记住的是当你发现评估指标无法对算法的优劣给出正确的排序时那么就需要考虑定义一个新的评估指标这里的例子只是定义评估指标的一种方法评价指标的目的是为了能够准确地告诉你给出两个分类器哪一个更适合你的应用就本次视频的目标而言大家不需要太关心如何定义新的误差指标重点是如果你对原有的误差指标不满意那就不要将就着使用这个你不满意的指标而是定义一个新的指标使其能够更好地反应你的偏好以符合你对更好的算法的定义也许你已经注意到了目前为止我们只讨论了如何定义一个指标来评估分类器我们定义了一个评估指标来帮助我们更好地对分类器进行排序以区别它们在区分色情图片上的不同水平这其实就是正交化思想的一个例子我认为应该将机器学习问题分解成独立的步骤第一步是确定一个指标以衡量分类器在你的目标上的性能然后我再单独地考虑如何在这个指标上得到很好的性能所以可以把机械学习任务看成是两个独立的步骤用靶子来比喻第一步是摆放靶子确定你要瞄准的地方这是一个完全独立的步骤这就像是一个你可以调节的旋钮用于独立地调整靶子摆放的位置至于如何准确地瞄准和射中这个靶子则由另一个独立的旋钮进行调节第一步先定义评估指标第二步再做别的事情就像射靶也许你的学习算法在优化这样一个代价函数在训练集上对损失之和进行最小化你也可以修改这个代价函数来引入这些权重可能最后还要修改这个归一化常数修改为1除以对w^(i)求和再次强调如何定义代价函数J并不是重点重点是这种正交化的思想放置靶子是第一步瞄准和射击靶子是另一个独立的步骤单独地进行换句话说我建议大家将定义指标看成是一步在定义了指标之后再考虑如何在这个指标上做好有时可能需要修改神经网络所优化的代价函数J 在进入下一个章节前让我们再看一个例子假设我们有两个猫分类器 A和B 它们在开发集上的误差分别为3%和5% 或者是在测试集上的误差其中的图片是从网上下载的高质量取景很好的图片可是当你实际部署算法产品的时候你却发现实际上算法B的表现更好尽管它在开发集上的表现不佳你发现训练使用的图片是从网上下载的高质量图片而当你部署到手机应用上时用户会上传各种各样的图片例如取景很不好猫没被照全或者猫的表情很奇怪或者图像很模糊当你对算法进行实际测试时发现其实算法B的表现更好这是另一个评价指标和开发/测试集出了问题的例子问题在于评估时使用的开发集和测试集中都是非常精美高分辨率取景很好的图片而你的用户真正关心的是能否正确识别他们上传的图片这些图片往往拍得不那么专业比较模糊取景不好指导方针是如果在你的指标上以及在当前开发集和测试集的分布上表现得很好不能对应于在你真正关心的应用场景上也表现得很好这时就需要修改指标和/或开发集和测试集换句话说当我们发现在具有非常高质量图片的开发集和测试集上进行评估无法正确预测你的应用的实际表现情况因为你的应用实际需要处理的是低质量的图片那么就应该修改你的开发集和测试集让你的数据能够更好地反应实际中你真正关心的数据的情况整体的方针是如果在你当前使用的指标和数据上获得很好的性能并不对应于做好你真正关心的事情那就需要修改你的指标和/或你的开发集和测试集让它们能更好地反应你真正需要算法做好的事情通过评估指标和开发集你可以更快地对算法A还是算法B更好做出决定可以确实地提高你和你的团队进行迭代的速度所以我的建议是即便你无法定义一个完美的评估指标和开发集你也应该尽快将它们确定下来以此来驱动你们团队的迭代速度如果之后发现选的不好你有了更好的想法你完全可以再进行修改对于大对数团队我不建议在没有任何评估指标和开发集的情况下进行长时间的开发因为这实际上会降低你们团队进行迭代和改善算法的效率以上我们讲了什么时候需要修改你的评估指标和/或开发集和测试集我希望这些指导方针能够帮助你为你的整个团队设立一个明确的目标从而能更有效率地朝着改善性能的方向进行迭代