除了L2正则化和随机失活(dropout)正则化之外还有一些其他方法可以减少神经网络的过拟合让我们一起来看看让我们一起来看看我们假设你正在拟合猫的图片分类器如果你过拟合了可以增加训练数据但扩大训练集代价很高而且有时候就是无法得到更多数据但你可以通过像这样处理图片来扩增训练集比如把它水平翻转然后也加到你的训练集当中现在你的训练集里不仅仅有这张图这一张也可以加进去所以通过水平翻转图像你可以把训练集的数据量翻倍因为你的训练集现在有些冗杂所以相比之下不如另收集全新独立的数据不过这种方法可以节省你出门拍更多猫照片的成本除了水平翻转之外你也可以随机裁剪图片这里我们旋转再放大了一下图片看上去仍然是一只猫所以通过随机的扭曲变换图片你可以增强数据集做出额外的伪训练样本再次强调这些额外的伪训练样本它们能增加的信息量不如全新的独立的猫照片多但因为这么做是几乎不需要任何开销的只有一些计算代价所以这是一个廉价的方式来为你的算法获得更多数据因此可以算作正则化而且减少了过拟合并且通过像这样的合成样本你实际上是在告诉你的算法如果这是一只猫那它水平翻转之后还是一只猫注意我并没有垂直翻转它因为我们大概并不想要倒置的猫随机放大图片的一部分这很可能仍然是一只猫对于字符识别你也可以扩增数据集通过给数字加上随机的旋转和变形所以如果把这些加到你的训练集里它们仍然是数字4 为了举例我用了一个很强的扭曲所以看上去是一个波纹4 实际操作中你不需要把4扭曲的这么夸张比我这种再细微点就可以了这个例子是为了让你们看得更清楚但实际中通常用比较细微的变形因为这个4看起来真的太扭曲了所以数据集扩增(data augmentation) 可以作为一种正则化技术准确地说是接近正则化还有另一个常用的方法叫做早终止法(early stopping) 你要做的是在运行梯度下降(gradient descent)时画一张训练误差的图可以用训练集的0-1分类误差或者把成本函数J(也称代价函数)画出来它应该要单调递减像图中这样因为当你训练的时候理想状况下你训练时的成本函数J应该是递减的用early stopping 你要做的是画出这个曲线同时也画出开发集误差的曲线一样地可以是开发集的分类误差或者成本函数比如开发集的对数损失函数(log loss) 现在你可以看出通常开发集误差会先下降一段然后接着开始增大所以early stopping做的就是你会发现在那次迭代附近你的神经网络表现得最好那我们想做的就是把神经网络的训练过程停住并且选取这个(最小)开发集误差所对应的值那么为什么这个方法是有用的呢? 当你刚开始在神经网络上迭代时你的参数w会接近于0 因为通过随机初始化(random initialization) 很可能你给w的初始值是一个较小值因此在训练足够长时间前 w仍然很小然后随着你继续迭代训练 w越来越大直到这里可能你的神经网络就有一个很大的参数w了所以early stopping做的是通过停在半路你能得到一个不大不小的w值这点和L2正则化有点像通过选一个参数w范数较小的神经网络理想状况下就能少点过拟合了而early stopping这个词就是指你会提前终止神经网络的训练在训练神经网络时我有时候会用early stoppping 但它有个缺点我来解释一下我把机器学习过程看作几个不同的步骤其中之一是你需要一个算法能够最优化成本函数J 我们有很多工具可以做到这点比如梯度下降之后我们会讲到其他算法比如Momentum算法 RMSProp算法 Adam算法等等然而即便优化了成本函数J 你还是希望不要过拟合我们有些工具可以做到这点比如正则化获取更多数据等等现在的机器学习中已经激增了很多超参数(hyper-parameter) 在诸多可能的算法中选择已经相当复杂了因此我认为机器学习可以变得更简单如果你有一套工具来优化成本函数J 而当你专注于优化成本函数J时你在乎的只是找到合适的w和b 使得J(w,b)尽可能的小其他东西都不用考虑你只要减小它就好然后避免过拟合也可以说成减小方差就是另一项完全不同的任务而你在做这件事的时候又有另一套完全不同的工具来实现这个原则我们有时候叫它正交化(orthogonalization) 这概念就是指同一时间只考虑一个任务在之后的视频里我会再讲到正交化如果你还没能完全理解这个概念也不需要太担心但对我而言 early stopping的主要缺点就是它把这两个任务结合了所以你无法分开解决这两个问题因为提早停止了梯度下降意味着打断了优化成本函数J的过程因为现在在降低成本函数J这件事上你做得就不够好了同时你又想做到避免过拟合所以你没有用不同方法来解决这两个问题而是用一个工具解决两个问题这就意味着你要做的事情考虑起来更复杂了如果不用early stopping 可以替代的选择是L2正则化那么你可以尽可能久的训练神经网络这样可以让超参数的搜索空间更易分解也因此更易搜索但这么做的缺点是你可能必须尝试大量的正则化参数λ的值这使得搜索这么多λ值的计算代价很高而early stopping的优势是只要运行一次梯度下降过程你需要尝试小w值中等w值和大w值而不用尝试L2正则化中超参数λ的一大堆值如果你目前还不能完全明白不用担心我们还会在之后的视频中很详细的讲到正交化我想那时这个概念就更好理解了尽管有些缺点很多人还是在使用它我个人偏爱只用L2正则化并尝试不同的λ值这预设你的计算能力是足够的但早终止法确实能够实现相近的效果而不用一个个尝试不同的λ值所以你们现在已经知道了如何扩增数据集以及early stopping 来减小方差或说是避免神经网络的过拟合接下来我们要讲一些优化问题的配置方法来加速训练过程