将所有你关心的方方面面组合成用一个用行索引就能判别的单一指标并不总是一件容易的事因此在某些情况下建立满足指标(satisficing matrics)和优化指标(optimizing matrics) 是很有用的我来解释一下比如你决定关注猫分类器的分类准确率(accuracy) 它可以是F1分数(F1 score)或者别的什么精确度度量但是假设除了准确率之外你还关心运行时间也就是对一个图像分类需要多少时间
这个表中分类器A需要80毫秒(millisecond) B需要95毫秒 C需要1,500毫秒也就是1.5秒才能甄别一个图像你当然可以将准确率和运行时间组合成一个整体评价指标(overall evaluation metric) 比如说整体代价是准确率-0.5*运行时间但是将准确率和运行时间用这样的公式整合看起来有些刻意这就像二者的线性加权和(linear weighted sum) 所以你还可以这样做: 你可能想要选择一个分类器它在确保运行时间的前提下提供最大准确率比如说它甄别图像所花费的时间必须<=100毫秒在这个例子中我们说准确率是优化指标因为你想要最大化准确率你希望准确率尽可能的高但是运行时间是我们我们所说的满足指标意味着它必须足够好必须<100毫秒一旦超出即不予考虑至少不大考虑所以用这种方式对准确率和运行时间
进行权衡或者说通盘考虑相当合理有可能的情况是只要运行时间<100毫秒你的用户并不在意它是100毫秒还是50毫秒或更快通过定义优化指标和满足指标你就有了挑选"最优"分类器的明确方向这个例子中中标的是B
因为在所有运行时间优于100毫秒的分类器中它的准确率最高更一般的说如果你有N个关心的指标有时候选择其中的一个加以优化是个合理的策略你想要它的表现尽可能的好那么剩下的N-1就是满足指标意味着他们只要达到某种阈值(threshold)就可以了比如说运行时间比100毫秒快之类的一旦他们达到了阈值你就不再费心优化他们了但是必须保证他们达到了阈值来看另一个例子下面再举另一个例子假设你在建一个检测唤醒词(wake words)的系统也叫做触发词(trigger words) 它指的是一些声控设备如Amazon Echo 你向它说Alexa来唤醒它或者你用OK Google唤醒Google设备或者用Hey Siri唤醒Apple设备或者 ”你好百度“ 用于百度设备或者你想阅览中文，比如“你好百度” 那么这就是你用于告诉某个声控设备你想要表达的意思叫它开工听你讲话时所用的词句以及其它关于“你好百度”的中文表达方式所以你可能会关心这些触发词监测系统的准确度也就是当有人说了某个触发词实际上会唤醒你的设备的可能性有多大你有可能也关心假阳性(false positive)的次数也就是没人说这个触发词设备却被随机唤醒的几率是多大这种情况下组合这两个评估指标的一个合理的做法可能是最大化准确度也就是当有人说了这些触发词的时候最大化设备会被唤醒的几率并在此前提下确保24小时内只有一次不是被触发词唤醒对吧即平均来说你的设备在一天内只有一次在没有人和它说话的时候被随机唤醒这个例子中准确率是优化指标 24小时因为其他原因被随机唤醒的次数是满足指标你必须确保24小时内只有最多一次被随机唤醒总而言之如果你同时关心多项指标你可以将其中的一样设为优化指标使其表现尽可能的好将另外的一项或多项设为满足指标
确保其表现满足要求大多数情况下他们都会优于最低标准这样一来你就有了一个几乎自动的快速评价模型和选择"最佳"模型的方法现在这些评价指标必须在训练集/开发集/测试集上评估计算现在这些评价指标必须在训练集/开发集/测试集上评估计算那么另一件你需要做的事情就是建立训练集/开发集/测试集那么另一件你需要做的事情就是建立训练集/开发集/测试集下一节我将与你分享一些如何建立训练集/开发集/测试集的指导原则下一节再见