在上一堂课中你看到了如何通过观察训练集和开发集上的误差来诊断你的算法中是否有偏差问题方差问题或二者皆有你能发现这个信息会让你能够让你有条理得多就是根据大家所说的机器学习的基本原则就能让你在改进算法性能时更有条理我们来看一下当训练一个神经网络时这是一个我会遵循的基本原则当训练好了最初的神经网络时我会首先问这个算法是否有高偏差? 要判断是否存在高偏差你实际上就是要看模型在训练集的数据上的表现如果说模型有高偏差即是模型甚至连训练集都不能良好拟合你能尝试的一种办法是挑选一个新的网络比如带有更多隐藏层或更多隐藏单元的或是延长训练时间让梯度下降法运行更长时间或换用一些更高级的优化算法我们将在这门课程的后面提到它。另一个可以尝试的办法这个办法可能有效也可能无效但之后总归会看到因为神经网络的结构有许多种所以你能够找到一种更加适合当前问题的结构我把它写在括号里是因为它是一种需要你亲自尝试的方法也许最终你能使它有效也许不能相比起来使用更大的网络几乎总是有效而延长训练时间虽然并不永远有用但是当然也不会造成坏处所以当训练一个学习算法时我会尝试这些办法直到我把偏差问题消除所以我尝试完会回到这里然后再重复尝试直到至少能良好地符合训练集通常如果你的网络够大你应当通常就能够将训练集拟合好只要这个学习问题是人类能完成的对吧如果图片非常模糊也许就不可能拟合但如果至少人类能够良好地完成这个任务如果你认为贝叶斯误差不是太大的话那只要训练一个足够大的网络就应当能够或许应当能够在训练集上取得良好的表现也就是把训练集拟合或是过拟合当把偏差减小到可以接受的范围之后就再问这个算法是否有高方差? 要判断这一点我会看模型在开发集上的表现看模型是否具备一般化的能力如在训练集上性能良好当一般化到开发集上时仍然性能较好? 如果你有比较高的方差解决高方差问题的最好方法是取得更多数据当然前提是你能获取得到这个办法才有用但有时你无法获得更多数据你还可以尝试正则化这是我们下一节课中会讨论的用它可以减少过拟合还有一种也需要你亲自尝试的方法就是如果你能找到更合适的神经网络结构有时也能够在缓解方差问题的同时也缓解偏差问题但具体怎么做呢? 这里倒是不太容易总结出完全系统性的规律所以我也尝试这些办法完后也回到初始点直到找到一种低偏差低方差的网络然后问题就到此解决了这里有几点要注意的是首先依据你问题的不同在高偏差和高方差时你应当尝试的办法有可能很不一样所以我通常用训练/开发集判断问题是在高偏差还是高方差然后根据这个来选择一些应当尝试的办法举例来说如果你有高偏差问题就算取得更多训练数据也无济于事至少也不是最有效率的办法所以明确认识到是更像高偏差问题或是高方差问题或是二者皆备就能帮助你选择最有用的办法另外在早些时代的机器学习中曾经有许多关于偏差和方差之间的取舍的讨论这讨论存在的原因是对于很多你能尝试的办法来说你只能在增大偏差的同时减小方差或减小偏差的同时增大方差但是深度学习之前的时代中我们能用的工具不是很多我们没有太多那种能够单独减小偏差或单独减小方差而不顾此失彼的工具但在当前这个深度学习和大数据的时代只要你能不断扩大所训练的网络的规模只要你能不断获得更多数据虽然这两点都不是永远成立的但如果这两点是可能的那扩大网络几乎总是能够减小偏差而不增大方差只要你用恰当的方式正则化的话而获得更多数据几乎总是能够减小方差而不增大偏差所以归根结底有了这两步以后再加上能够选取不同的网络来训练以及获取更多数据的能力我们就有了能够且只单独削减偏差或者能够并且单独削减方差同时不会过多影响另一个指标的能力我认为这就是诸多原因中的一个它能够解释为何深度学习在监督学习中如此有用以及为何在深度学习中偏差与方差的权衡要不明显得多这样你就不需小心地平衡两者而是因为有了更多选择可以单独削减偏差或单独削减方差而不会同时增加方差或偏差而且事实上当你有了一个良好地正则化的网络时我们将在下一节课中讨论正则化训练一个更大的网络几乎从来没有坏处当训练的神经网络太大时主要的代价只是计算时间只要你采取正则化就行我希望这个视频能给你一些基本的概念知道如何有条理地诊断机器学习中的偏差与方差问题然后采取正确的办法来在问题中取得进展我在视频中多次提到过正则化的概念它是用于减小方差的一个很有用的办法在正则化中存在一点点偏差与方差间的权衡它可能会使偏差增加一点点虽然在你的网络足够巨大时增加得通常不会很多所以让我们在下一个视频中深入讨论一下如何对神经网络进行正规化 GTC字幕组翻译