欢迎回来如果你想得到一个训练算法
来做人类可以做的任务而且你所训练的算法
还没有达到人类的效果你需要手动地检查算法中的错误来得到你下一步该做什么这个过程叫做错误分析让我们从一个例子开始假设你正在做一个猫分类系统
在验证集上准确率达到90%的或错误率达到10% 假设这比你想象中的结果要差很多也许你的一个队友
在看一些算法分错了的样本并且发现它将狗误认为猫了如果你看看这两只狗
也许它们看起来有点像猫至少乍看之下是这样所以也许你的队友会来给你一个建议如何使算法更好
特别是在狗身上对吗你可以有侧重点收集更多狗的图片或设计针对狗特有的特征之类的为了使猫分类器在狗上表现更好所以它不再将狗误判为猫所以问题是你是否应该继续并且开始一个项目侧重于狗的问题可能要花费好几个月来使你的算法在狗的照片上犯少一些错误而这值得你努力吗与其花几个月做这个最终却发现这没有很大帮助。这个错误分析的方法
可以让你很快地判断值不值得这么做所以我的建议是首先拿大约100张分类错误的验证集图片
并进行手动检测只需要数一数看有多少张验证集中标错的样本实际上是狗的图片现在假设事实证明在验证集中分错的100张样本里
有5%是狗的图片也就是说验证集中
分错的100张中有5张是狗这意味着在这100张图片中特指你分错的这100张即使完全解决狗的问题
也只在这100张中多分对了5张换言之若只有5%的错误是狗照片如果你在狗的问题上花了大量时间最好的情况也就是你的错误率从10%下降到9.5% 对吗这5%是错误里的相对下降值
因此是从10%下降到9.5% 那么你可能可以合理地判断出
这样并不是最好的利用时间的方式也有可能是
但至少给了你一个上限通过处理狗的问题能提高多少准确率对吗？在机器学习中有时我们把这称为表现上限意思是最好的情况是什么关注狗的问题能有多大的帮助但是现在假设有别的事情发生了假设在验证集里错标的100张样本中你发现他们中的50张实际上是狗的图像所以50%是狗的照片现在你可以更确定地把时间花在狗的问题上在这种情况下如果你真的解决了狗的问题你的错误率可能将从这10%下降到5% 你可能会认为错误率减半是值得付出努力的专注于减少被错误标识的狗我知道在机器学习中有时我们会贬低手动操作或使用太多人工判断但是如果你在构建应用系统
那么这个简单的计数过程也就是错误分析可以节省你很多时间在决定什么是最重要的或哪个方向最有希望值得关注实际上如果你想检查一下错误标记的验证集也许只需要花5到10分钟人工浏览100张图片并数出它们中有多少是狗再根据结果看是5% 还是50% 还是别的这只需要5到10分钟能够评估这方向是否值得花时间并可以帮你作更好的决定是否要在接下来的几个月中
集中精力解决被错误标识的狗的问题在这页讲义中我们讲了使用错误分析来评估一个思路这里指狗
是否值得实行有时你也可以评估多个思路
通过并行的错误分析例如假设你有好几个
改进你的猫检测器的思路也许可以提高对狗的识别也许你会注意到有时候所谓的"大猫" 如狮子、豹、猎豹等他们被认为是小猫或家猫所以你也可以尝试解决这个问题也许你会发现你的一些图像是模糊的也可以设计一些方法
使模糊图像能被更好的检测也许你对这方面有一些思路因此如果用错误分析
来评估这三种思路我的做法就是创建一个这样的表我通常在电子表格中做这个但使用普通的文本文件也可以在左边这将遍历你计划手动查看的图像集如果你看100张图片就从1到100 而电子表格上的列对应你要评估的几个思路所以是狗的问题大猫的问题
以及模糊的图像我通常还会在电子表格中留出空间来写评论所以请记住在错误分析中只看验证集里
你的算法判断错误的样本所以如果你发现
第一个误判的图像是一张狗的图片然后我会在那里打个勾为了帮助自己记住这些图像有时我会在评论中做一个注解也许那是个斗牛犬的照片如果第二张图片是模糊的
就在那做个标记如果第三个误判的是一只
动物园雨天里的狮子那就是一只大猫并且模糊的数据在备注里写上在动物园的雨天是雨使它模糊不清等等最后看完了这些图片我将计算出这些算法的百分比或者这些错误类别的百分比
因为狗的或大猫的或模糊的你检测的图片中也许8%的是狗 43%是大猫 61%是模糊的所以这就意味着每列下来计算在该列中有标记的图像的百分比当你在这个过程中有时你会发现其他类别的错误例如你发现Instagram的风格滤镜那些花哨的图像滤镜
也迷惑了你的分类器在这时候，事实上没关系在这过程中另加一列给颜色滤镜 Instagram滤镜和Snapchat滤镜然后也把这些数出来计算出这个新错误类别的百分比是多少这个过程的结论会给你一个估计值这些不同类别的错误有多少处理价值这个例子里我们在模糊图片中有非常多错误大猫图像上也有不少因此这个分析的结果不是
你必须处理模糊的图像这不给你一个严格的数学公式
告诉你该怎么做但它给你一个最好的参考做法它也告诉你例如不管你在狗或Instagram的图像上
做得有多好在这示例中你最多只能提高
8%或12%的准确率而你可以针对大猫图像或模糊图像能有更好的结果现在这个能提高多少准确率的上限值要高得多根据你有多少想法
来提高对大猫的判断来处理模糊图片你可以选其中一个
如果你队伍中有足够的人手你可以分成两个不同的团队一个改善大猫的误判另一个团队改善模糊图片的误判但这个计数过程通常很快你最多只需要几小时的时间它可以真正帮你做出更好的优先决策并且了解不同方法的潜力综上所述要进行错误分析
你应该找到一套在你验证集中错误标识的样本并按假阳性和假阴性来看并计算不同类别中的误判个数在此过程中可能会促使你
提出新的错误类别就像我们看到的当你浏览样本的时候有很多Instagram滤镜或者Snapchat滤镜他们也搞乱了分类您可以在过程中创建新类别但通过对不同类中错误标识的例子计数通常这将有助于你判断优先级或给你新方向的灵感当你在做错误分析时有时你会注意到在开发集中有些是错误标签的那你该怎么办呢我们将会在下节探讨这一问题