除了L2正则化另一种非常强大的正则化技术是随机失活正则化(丢弃法 dropout) 让我们来看看是如何工作的假设你训练左图所示的神经网络并发现过拟合现象你可以随机失活技术来处理它让我先拷贝这个神经网络图使用随机失活技术我们要遍历这个网络的每一层并且为丢弃(drop)网络中的某个节点置一个概率值即对于网络中的每一层我们将对每一个结点作一次公平投币使这个节点有50%的几率被保留 50%的的几率被丢弃抛完这些硬币我们会决定消除哪些节点然后清除那些节点上所有正在进行的运算所以你最后得到的是一个小得多的被简化了很多的网络然后再做反向传播训练这是一个被简化的神经网络的例子对于不同的训练样例(examples) 你可以为所有的节点重新进行若干轮投币保留和消除不同的节点对每一个训练样例你可以选择其中任意一个网络进行训练也许这个技术看起来有点疯狂他们只是按照随机的编码决定这些节点的去留但是这个技术确实是有效的因为对于每一个训练样例你都在训练一个小得多的网络这样或许能让你理解为什么你能正则化整个网络因为被训练的是一些小得多的网络让我们看看如何实现随机失活算法有几种方法可以实现随机失活算法我将展示最常用的一种反向随机失活(inverted dropout) 完整起见我们在l=3的层上演示这个技术在我准备写的代码中这里有一堆的3 我将演示如何实现单层的随机失活技术设置一个矢量d d3表示层3的失活向量 3将作为np.random.rand(a)中a的后缀 d3将获得和a3一样的形状当d3中的某个元素小于某个值这个值命名为keep.prob 即keep.prob是一个数值之前我将它赋值为0.5 在这个样例中它赋值为0.8 这是给定隐藏单元将被保留的概率值 keep.prob=0.8 意味着这个隐藏单元有0.2的几率被丢弃因此它将生成一个随机矩阵这个方法也适用与矢量化运算这种情况下d3将是一个矩阵因此任意一个训练样例及隐藏单元的组合其对应的d3中的元素都有0.8的几率取值为1 0.2的几率取值为0 这个表达式表示这个随机数有0.8的几率取值为1 或为真(True) 20%或0.2的几率取值为非(False) 或0 然后取层3的激活矩阵用a3来表示 a3为刚才计算的激活矩阵它是用原来的a3与d3相乘得到的矩阵这里的相乘是逐元素相乘也可以写成a3*=d3 这样做的作用是对于d3中值为0的元素每个元素有20%的几率取值为0 通过点乘将a3中0值对应位置的元素一一清零如果你用python实现技术上来说d3是一个值为True或False的布尔值数组而不是1或0 但是用1和0表示True和False 做点乘运算确实能达到效果你可以自己用python验证一下最后我们要放大a3 将a3除以0.8 实际上是除以keep.prob参数我来解释以下最后一步方便起见假设层3有50个单元或者说50个神经元所以a3的维数是50x1 如果你做矢量化的运算它的维数是50xm 所以每个神经元有80%的几率被 20%的几率被丢弃这意味着平均起来将有10个单元失活或者被清零现在再看看z4的值 z4=w4*a3+b4 它的期望值将减少20% 也就是说a3中20%的元素都被清零了为了不减少z4的期望值我们需要除以0.8 因为它能提供你所需要的大约20%的校正值这样a3的期望值就不会被改变这就是所谓的反向随机失活技术(inverted dropout technique) 它的作用在于你可以将keep.prob设为任意值 0.8或0.9甚至1 如果值为1那就没有丢弃因为它保留了所有神经元这个值也可以是0.5或随便什么反向随机失活技术通过除以keep.prob 确保a3的期望值不变而且你会发现在测试阶段也就是你要评估一个神经网络时 --这个我们将在下一页幻灯片讨论反向随机失活技术就是这条线指向的随机失活正则化过程中这个绿色的框表示的部分它简化了神经网络的测试部分因为它减少了可能引入的缩放问题到目前为止随机失活正则化最普遍的实现据我所知就是反向随机失活我建议你自己操作一下但是在一些早期的随机失活法的版本中并没有除以keep.prob这个操作所以在测试过程中求平均值变得越来越复杂但是人们已经不再使用那些版本了我们使用矢量d 而且你会注意到不同的训练样例的训练实际上对不同的隐藏单元实施了清零实际上如果用同一个训练集进行迭代在不同的训练轮次中你应该随机地将不同的隐藏单元清零因此这并不意味着同一个训练样例的训练应该保证一直丢弃相同的隐藏单元 --在梯度下降法的一次迭代中你把一些隐藏单元清零了在第二次迭代时也就是第二次遍历测试集的时候你可以用不同的模式给隐藏单元清零矢量d或者说层3对应的d3 将决定哪些被清零 --无论是在正向传播还是反向传播过程中我们在这里只展示了正向传播用这个算法完成训练后我们来看看测试阶段的算法在测试阶段你想对一些x做预测使用我们的标准表示法我用a0 即层0的激活函数输出代表测试样例x 我们要做的是不在测试阶段使用随机失活算法具体来说 Z^1= w^1.a^0 + b^1. a^1 = g^1(z^1 Z). Z^2 = w^2.a^1 + b^2. a^2 =... 直到到达了最后一层并得到一个预测y^ 但请注意在测试阶段你并没有在哪里使用随机失活算法没有抛硬币你不用抛硬币来决定哪些隐藏单元要被消除这是因为在测试阶段做预测的时候你并不想让你的输出也是随机的在测试阶段也使用随机失活算法只会为预测增加噪声理论上来说可以做的一件事是用不同的随机失活的神经网络进行多次预测取并平均值但是这个方法运算效率不高而且会得到几乎相同的预测结果每次不同的预测过程将给出非常非常相似的结果刚才提到过反向随机失活记得上一页我们有做除以keep.prob的运算它的作用是保证如果测试过程没有针对随机失活算法进行缩放(scaling) 那么激活函数的期望输出也不会改变所以不用在测试过程中加入额外的缩放参数这与训练过程不同这就是随机失活正则化算法你会在这周的编程作业中练习它的操作并获得更多的一手体验但是为什么它真的有效呢？下一个视频中我将更直接地解释随机失活的原理我们下一节再见