随机失活 (dropout) 这种从网络中随机敲除神经元的做法看起来有些疯狂但是为什么用于正则化时它的表现这么好呢？让我们再深究一下在之前的视频中我们给出了一个数学上关于梯度我之前解释dropout会让神经元随机失活这就使得好像每一次迭代都会在一个更小的神经网络中计算而使用更小的神经网络就好像具有正则化效果这里再给出第二个解释我们从单一神经元的角度来看这个问题比如这个点它的任务就是利用这些输入单元生成一个有意义的输出而如果使用了dropout 这些输入会被随机的丢弃有的时候这两个神经元会被丢弃有的时候另一个神经元会被丢弃因此这就意味着我用紫色圈起来的这个它不能依赖于任何一个特征因为每个都可能被随机丢弃或者说它的每一个输入都可能随机失活所以在特定的时候就不愿把所有的赌注只放在这一个输入神经元上对吗？因为任何一个输入都可能失活所以我们也不愿把太多的权重放在某一个上因此这个神经元将会更积极的使用这种方式对于每个输入都给一个比较小的权重而泛化这些权值将有利于压缩这些权重的平方泛数 (平方和) 和L2正则化类似使用dropout有助于收缩权值以及防止过拟合但是更准确的来说 dropout应该被看作一种自适应形式而不是正则化 L2正则对不同权值的惩罚方式有所不同这取决于被激活的乘方大小总之来说 dropout能起到和L2正则类似的效果只是针对不同的情况L2正则可以有少许的变化所以适用面更广当你使用dropout时还要注意一个细节这里是一个神经网络有3个输入这里有7个隐藏神经元 7个 3个 2个 1个我们必须要确定的一个参数是留存率 (keep prop) 它表示一层中一个神经元不失活的概率因此可以对每一层设定不同的留存率第一层中 W1权值矩阵是3×7 第二层W2是7×7 第三层W3是7×3 以此类推很明显W2是最大的权值矩阵因为它的参数最多达到了7×7 所以为了让这里不容易发生过拟合可能对于这一层我猜是第二层你可以设定一个相对低的留存率 0.5 而对于其他你不太担心会发生过拟合的层你可以设定一个更高的留存率比如0.7 如果某一层我们完全不担心会过拟合你可以把留存率设定为1.0 为清楚起见我把这些数字用紫色框起来可以看到不同层有不同的留存率需要注意的是留存率1.0表示你保留了每一个神经元在这一层你并没有使用dropout 但是对于那些容易发生过拟合的层也就是那些有许多参数的层为了达到更好的效果你可以设定一个较小的留存率这就好像你想使用L2正则对某些层进行更严格的正则化时对参数λ进行起始设定从技术上来说你也可以在输入层上使用dropout 随机的选择一个或几个输入特征进行组合但是在实践中通常不会这样做最常见的做法是将这一层的留存率设为1.0 当然你也可以设置一个较高的值比如0.9 但一般不会让一半的特征输入失活所以对于输入层如果你要使用dropout 通常是把它设置为一个接近1的数总结一下如果你觉得某一层比其他层更容易发生过拟合就可以给这一层设置更低的留存率这样的缺点是在交叉验证 (网格) 搜索时会有更多的超参数 (运行会更费时) 另一个选择就是对一些层使用dropout (留存率相同) 而另一些不使用这样的话就只有一个超参数了在最后总结之前再说几个实际使用时值得注意的最早对dropout技术的成功应用许多是在计算机视觉领域在这个领域中它的输入层向量维度非常大因为要包含每个像素点的值几乎不可能有足够的数据因此dropout在计算机视觉领域使用非常频繁有些研究人员总是使用它几乎已经成为一种默认了但需要记住dropout是一种正则化技术目的是防止过拟合所以除非我的算法已经过拟合了我是不会考虑使用dropout的所以相对计算机视觉领域它在其他应用领域使用会少一些因为一般没有足够的数据几乎总是发生过拟合这才导致一些计算机视觉专家特别依赖dropout 但这并不表示其他领域也如此 dropout的另一个缺点是让代价函数J 变得不那么明确因为每一次迭代都有一些神经元随机失活所以当你去检验梯度下降算法表现的时候你会发现很难确定代价函数是否已经定义的足够好 (随着迭代值不断变小) 这是因为你对代价函数J 的定义不明确或者难以计算因此就不能用绘图的方法去调试错误了像这样的图通常这个时候我会关闭dropout 把留存率设为1 然后再运行代码并确保代价函数J 是单调递减的最后再打开dropout并期待使用dropout的时候没有引入别的错误我想你需要使用其他方法而不是类似这种画图的方法去确保你的代码在使用dropout后梯度下降算法依然有效到此为止仍然有一些值得我们去了解的正则化技术我们将在下一段视频中介绍