[背景音乐] 翻译: RyukaSuu |审阅: 19waa Coursera Global Translator Community 好的 我们所面对的这个 由13次多项式拟合曲线所引起的问题 叫做过拟合 所以具体来说 我们所做的事情 就是采用了一个模型 并且将它不断地 不断地不断地修正 以符合我们对事物的实际观察结果 但是 这个模型在作出新的预测的时候泛化能力并不好 并且这个问题其实已经超出了仅仅是作出疯狂的猜测 我们会在回归分析的课程中进行更加细致和深入的讨论 但是我要指出的是这是一个真实存在的问题 这个问题在你所想到的任何机器学习模型或者 统计学模型中都是存在的 在这些情况下 我们想要针对数据去拟合一个模型 但是 我们不希望这个模型太局限在 我们手中已有的这一个数据集 以至于它不能很好地泛化 无法在我们新观察到的数据上做得很好 好的 让我们回头再来看看这个13次多项式的曲线拟合 然后问题就来了 我们真的相信这个预测吗? 我们真的相信这是一个对数据的合理拟合吗? 我相信鉴于我之前所提到的 这并不是一个我们能够相信的预测 所以即使这个模型能够最小化残差平方和 它也会导致一些非常糟糕的预测 我坐在这里并且思考着 嗯 这是一个二次曲线的拟合模型 即使它不像那个13次多项式模型那样 最小化了残差平方和 从我本能的直觉出发 这个一个比之于13次多项式更好的模型 好的 那么问题来了 接下去我们怎么办 我们对选择合适的模型阶数或者说模型复杂度的问题 又是怎样考虑的呢? 我们想要的是准确的预测 毫无疑问那是我们一直以来的目标 但是我们不能真正地观测到未来 所以我们不能观测到那些我们想要作出的预测的结果 并且根据那些结果来评判我们是不是做得够好 直到我们真正地根据自己的模型去做出那些预测 所以当我们在思考如何选择模型的时候 出于一些原因我们只能够运用我们仅有的那些数据 所以在这样的情况下我们应该如何考虑 去选择一个好的模型呢? 我们能够做的是考虑去模拟预测的过程 所以我们会拿出我们所拥有的数据集 并且我们会去掉一部分房屋的数据 就是那些在这里变成灰色的屋子 它们会暂时地被排除在外 并且我们会在剩余的房屋数据上去拟合我们的模型 所有这些房屋就是我们用来去拟合我们的模型的数据 运用和我们之前所讨论过的完全一样的方法 之后我们要做的就是预测 所以我现在把这些叉都擦掉并且在房屋上面画上问号 并且推断说 根据我之前刚刚从圈出来的房屋上学习出的模型 对于这些打上问号的房屋我究竟会给出什么样的预测呢? 之后我就能把这些预测和真实地观测值进行比较了 因为这些都是我的数据集里存在的房屋数据 好的 所以我可以用这样的方式作为一种替代方案 作为在我还没有收集到的数据上 去做我想要做的真实预测的一种替代方案 当然 这样的方法能够取得好的效果仅仅是在我有足够的 观察数据来拟合模型的情况下 相比于那些我用来预测的数据要是足够的 好的 让我们引入少量的一些术语 这些我们用来去拟合我们的模型的房屋数据 被称作训练集 而那些作为我们真实预测的替代物的房屋 那些我们排除出去的房屋数据 我们称之为测试集 好的 现在让我们来更加深入地讨论一下 我们该如何进行这样的分析 我们能做的第一件事就是看看所谓的训练损失 我们将要检查所有在我们的测试集中出现的房屋 现在让我们来看看这些红色的圈 这代表了我们训练集中的房屋 这些房屋用蓝色的圆来表示 并且它们是仅有的 我们在定义和计算训练误差时所着眼的数据 所以具体地来说 我们将要看看我们在这些房屋上有多少的损失 所以这仅仅是在我们的训练集上的残差平方和 这称作训练损失 所以具体地说 训练损失的计算 看上去非常像我们之前所做的 关于残差平方和的计算 但是 在这里我们仅仅引入了那些在训练集中包含的数据 好的 所以对任意给定的模型来说 比如对数据的线性拟合 二次拟合或者其他的模型 我们能做的就是估计模型的 参数 使得训练损失得到最小化 所以这就等价与我们之前讨论的 关于如何最小化 残差平方和 但是我要再次提醒 在这里我们仅仅着眼于在训练集中的房屋数据 好的 这就是我们如何得到w hat估计值的方法 也就是我们模型的参数估计值 但是之后我们想要做的是 我们想用这些模型参数的估计值 去推断说我们究竟做的多好 还记得我们之前所说的吗? 我们将要做的 是看看模型在我们排除在外的那部分观测数据上 做得怎么样 对吗? 在这里 这些灰色的圆 就是在我们的测试集中的房屋数据 这些是我们没有用来拟合我们模型的数据 然后我们会问 在这些实际的房屋数据上 我们预测得有多好呢? 好的 那么我们的预测值究竟是什么呢? 还记得当我们在考虑作出预测的时候 我们直接使用了拟合曲线上对应的数值 就是这些在曲线上的点 所以去评价我们在这些排除在外的数据上预测得多好 也即在我们的测试集上表现的多好 我们将会再次考虑一些东西 这看上去和剩余方差的和一模一样 但是它被称作测试损失 我们用这些模型参数的估计值w hat 然后求和 对于我们测试集中所有房屋的剩余方差的和 进行求和 好的 这就是我们的测试损失 但是我们可以进一步考虑的是 我们的测试损失 和训练损失 是否随着模型的复杂度 呈一个函数变化的关系呢? [背景音乐] 翻译: RyukaSuu |审阅: 19waa Coursera Global Translator Community