通过估计学习算法的偏差和方差能帮你确定下一步工作的优先级但当你的训练集开发集测试集来自不同的分布时偏差和方差的分析方法也会相应变化接下来一起看看如何实现让我们继续使用猫分类器的例子假设人类在这个问题上有近乎完美的表现即贝叶斯误差约等于0% 所以进行误差分析时你通常要兼顾训练集误差和开发集误差假设在这个例子中训练集误差为1% 开发集误差为10% 如果开发集和训练集数据来自同一分布那说明问题是方差过大代表虽然算法的训练集表现好但未能较好地泛化(generalize)到开发集即开发集表现不好但如果训练集与开发集的数据来自不同分布的话你就未必能这样肯定地下结论了具体来说也许它在开发集的一般表现只是因为高分辨率非常清晰的图片造成训练集难度较低但开发集较难所以也许不是方差的问题它只是反映了开发集的图片更难精确地进行区分这个事实这时误差分析要注意当你从训练集误差转移到开发集误差时有两件事情变了一算法看到的数据只有训练集没有开发集二开发集和训练集数据分布不同因为同时存在两个变量我们很难判断这9%的误差有多少是因为算法未接触开发集而影响了方差又有多少是因为开发集的数据分布不同所以为了辨识出这两个影响如果你对这两种影响完全不了解别担心别担心我们马上就会说到为了梳理出这两个影响我们需要新定义一组数据叫做训练-开发集(training-dev set) 这是一个新的数据子集我们要让它与训练集拥有同样的数据分布但你不用直接拿它来训练你的网络就是这样子之前我们已经建立了训练集训练集和测试集如图所示开发集和测试集属于同分布训练集数据属于不同分布我们要做的是将训练集随机混淆(shuffle) 取出一小块数据作为训练-开发集如同开发集与测试集分布相同训练集与训练-开发集也遵循相同分布区别在于现在你只需要用着一部分训练集训练你的网络你用让你的神经网络你需要将训练-开发集用于传播算法要做误差分析你要做的是对比分类器的误差训练集误差训练-开发集误差和开发集误差假设在这个例子中训练集误差为1% 训练-开发集的误差是9% 开发集误差为10% 和之前一样我们可以从中看出从训练数据到训练-开发数据误差确实上升了很多训练数据和训练-开发数据的唯一差别在于神经网络看到了前者它在明确地在训练集上训练但并没有在训练-开发集上直接训练所以这表明你有方差问题因为训练-开发误差是在与训练集同分布的数据上测量的所以可知虽然你的神经网络在训练集中做得很好但它在同分布的训练-开发集上一般化并不好这些数据虽然来自与训练集相同的分布但因为一般化得不好神经网络没能见过所以这个例子实际上是高方差问题让我们看一个不同的例子假设训练集误差为1% 训练-开发集误差为1.5% 但是开发集误差为10% 这就是方差偏小的问题因为从已经见过的训练集数据到未见过的训练-开发集误差只增加了一点点但是到开发集出现了跃增所以这是数据不匹配的问题所以这是数据不匹配的问题因为你的学习算法没有直接在训练-开发集或开发集上训练而两者来自于不同分布但是无论它在学习什么算法它在训练-开发集上性能很好但在开发集上却不是这样所以某种程度上你的算法并未在你所关心的分布上训练的很好所以我们把它叫做失配问题(mismatch problem) 让我们再看几个例子因为上面已经没位置了我把这个写在下面一行训练集误差训练-开发集误差开发集误差假设训练集误差为10% 训练-开发集误差为11% 开发集误差为12% 之前提到的人类水平的贝叶斯误差为大约0% 如果是这样的表现其实是偏差问题即可避免偏差问题因为性能比人类水平差远了这确实是个高偏差设置让我们看看最后一个例子如果训练集误差是10% 训练-开发集误差为11% 开发集误差是20% 那么看来它存在2个问题第一可避免的偏差相当高因为它甚至在训练集上的表现都不好人类误差约等于0 但算法在训练集上的误差为10% 虽然方差看上去相当小但是数据失配程度相当大所以对于这个例子我会说偏差或可避免偏差问题以及数据失配问题都很严重让我们根据这一页的内容来总结一般原则要关注的关键数据是人类水平误差和你的训练集误差以及训练-开发集误差虽然它与训练集数据分布相同但是并没有直接用于训练根据开发集误差以及这些误差间的差值你就能大致了解可避免偏差方差以及数据失配的程度假设人类水平误差为4% 训练集误差为7% 训练-开发集误差为10% 开发集误差为12% 你就能估计可避免偏差因为你希望你的算法性能在训练集上能达到或接近于人类水平这是方差的情况能将训练集多好地泛化到训练-开发集这是数据失配的状况从技术上讲你还可以再加一个即测试集性能这里写上test error 你不应该在测试集上做开发因为你并不想让算法在测试集上过拟合但是如果你看看这个差值就能看出算法对开发集的过拟合如果开发集性能和测试集性能差太多也许你将神经网络调得太偏向(overtune)于开发集了所以也许你需要找一个更大的开发集记住你的开发集和测试集服从相同分布因为开发集上的表现要比测试集好太多所以这个巨大差异的唯一理由是对开发集的过拟合如果是这样的话你可能会考虑倒回去取得更多的开发集数据我写了这些数字从上往下数字保持增长这里有另一个例子其中数字并非一直增长也许人类水平性能为4% 训练集误差为7% 训练-开发集误差为10% 但是到了开发集时你惊讶的发现开发集的实际误差要小得多也许都是6% 你看到的是某个语音识别任务的数据它是这样的效果即训练集数据甚至要比开发集和测试集更难学习所以这两个是训练集分布上的评估这两个是开发集/测试集分布上的评估因此如果有时基于您的应用开发/测试集分布更容易学习那么这些数字实际上是会下降的如果你发现了这样好玩的事对于这种分析还有一个更通用的公式让我在下一张幻灯片上快速解释一下我用语音激活后视镜这个例子演示一下实际上我们写下来的这些数据可以放到一个表中其中横轴为不同的数据集例如你可能有来自常规语音识别任务的数据你有一堆数据来自于之前工作过的语音识别任务也许来自与小型扬声器或者买来的数据你也有来自后视镜的特定语音数据记录在车内所以x轴标记各种数据集另一个轴标记用于查验数据的不同方法或算法首先是人类水平的性能即在这些数据集上人类的精确程度是多少然后是用于神经网络训练的样例的误差最后是没有被神经网络训练的样例的误差所以上一张幻灯片所说的人类水平对应于表中的这个位置它表示人类在这一类数据上的表现这一部分数据来自于各种语音识别任务你可以将数以10万计的话语(utterance)放入训练集上一页的例子中这个值为4% 这个值也许对应训练误差上一页中对应值为7% 它表示如果你的学习算法看到了这个样例并用于运行梯度下降法同时这个样例来自于训练集同分布或者其他一般语音识别(任务)分布算法在这个已被训练的样例上的表现如何？这里是训练-开发集误差通常要更高一些它代表这个分布的数据即一般语音识别分布中并没有被直接用于训练的数据上的性能称作训练-开发集误差移到右半边表这个格子代表开发集误差也可能是测试集误差这个例子中对应值为6% 开发集误差和测试集误差技术上来说是两个不同的数值但是任意其中之一都可以归于这个格子表示数据来自于后视镜来自于车辆的真实记录来自于后视镜应用但并未被神经网络用于反向传播训练的样例这是它的误差所以我们在上一张ppt中做的分析就是看这两个这两个这两个数据的差这个差值用于衡量可避免的偏差这个差值用于衡量方差这个差值用于衡量数据失配事实表明剩下的两个表格也是有用的如果这个数据是6% 获得这个数据的方法是邀请一些人为他们的后视镜语音数据贴标签以衡量人类在这项任务的表现也许这个数值仍然是6% 然后你要做的是取一些后视镜语音数据放入训练集中让神经网络学习然后测量这个数据子集上的误差如果这是你得到的数据那么在这个后视镜语音的任务上你已经得到了人类水平的性能也许你在这个数据分布上已经做的很好了当你继续后续的分析时并不一定总会得到清晰的前进方向但是有时它能提供更多的见解例如对本例这两个数据的比较可以得出对人类来说处理后视镜语音数据实际上比一般语音识别要难因为人类误差为6%而不是4% 但是这些差异也能帮助你了解不同程度的偏差和方差以及数据不匹配问题这个更通用的陈述我曾经用过几次我还不太习惯？但是对很多问题来说你会发现查验这些项对应的子集也就是看这个这个这个差值就足够指出大有希望的方向了但是有时填充整个表将带来额外的发现最后我们之前讨论了很多关于解决偏差的方法和处理方差的技术但是如何解决数据失配的问题？具体来说训练与开发集测试集不同分布的数据可以为训练提供更多的数据帮助学习算法获得更好的性能但是除了偏差和方差问题现在你又有了新的潜在问题数据失配解决数据失配问题又那些好方法？老实说实际上并没有很好的至少是非常系统的处理数据失配的方法但是有一些事情你可以试试或者能有帮助我们下节再讲这一节我们讲的是使用来自与开发集和测试集不同分布的训练数据能提供更多的数据帮助提高学习算法的性能但是除了原来仅有的偏差和方差两个潜在问题你又有了第三个潜在问题数据失配那么如果你进行误差分析并得出结论说数据失配是一个巨大的误差来源要怎么解决呢？不幸地事实上还没有很系统的方法来解决这个问题但是还是有一些可能有帮助的事我们可以试试我们下节将讲到