[背景音乐] 翻译: RyukaSuu |审阅: 19waa Coursera Global Translator Community 对于每一个我们可能考虑到的模型的次数 举例来说 一个线性模型 或者 我们同样讨论过使用一个二次模型 一直到我们所讨论的 非常疯狂的 13次多项式 当然 我们甚至也可以考虑更加高次的模型 好的 那么测试损失会发生什么呢? 抱歉 我想说的不是测试损失 让我们从训练损失开始 这考虑起来要容易许多 所以训练损失 当我们增加模型的次数时 这样的模型能够 更好地拟合我们在训练集中的观测值 所以我们将会看到的是 我们的训练损失 会随着模型次数的上升而下降 记住我们所画出的这条曲线 我们可以看到残差平方和的变化 关于线性拟合 二次拟合 一直到13次多项式的拟合 这基本上符合了 我们每一个的观测值 所以我们可以看到 残差平方和在不断地下降 这个趋势即使当我们排除了一些观测值的时候也成立 也就是我们仅仅着眼于训练集 所以我们会看到我们的训练损失在下降 当我们增加模型的灵活性的时候不断地下降 让我们把这条曲线标注为我们的训练损失 特别地 是关于我们所估计的模型参数 w帽的损失 现在让我们来弄清楚w 帽究竟代表了什么 对于每一个复杂度层次的模型 比如线性模型 二次模型等等 我们所要做的 就是去最优化 并且为线性模型找到一组参数w 帽 我们会在所有可能的直线当中搜索 搜索那条最小化训练损失的线 还记得我们所说过的吗 在好几页幻灯片之前我们曾经说过 我们用来估计模型的方法就是 最小化与我们的训练集上观测值的误差 这就是我们如何获得线性模型的参数w 帽的方法 然后我们就用w 帽去计算训练损失 接下来让我们考察所有可能的二次曲线拟合 在所有的二次曲线上最小化训练损失 这就是我们得到二次曲线的w 帽的方法 然后我们画出关于w hat的训练损失 那些二次曲线的w 帽等等诸如此类 好的 我们同样也可以来讨论测试损失 但是 这里会稍稍地复杂一些 让我们来考虑一下 当我们增加模型的次数的时候 测试损失会发生什么呢? 如果你还记得那个13次多项式拟合的模型 我们所看到的是 那条疯狂而扭曲的曲线 所作出的预测是十分糟糕的 所以当我们考虑把测试集排除在外 拟合13次多项式模型的时候 仅仅使用训练数据 我们会看到一条扭曲而疯狂的拟合曲线 接着当我们考察测试集中的观测数据 就是那些我们 排除在外的数据 我们可能会发现相比那些实际的数据 我们的预测非常糟糕 所以符合我们预期的是 在某一个点上 我们的测试损失很可能会开始上升 所以测试损失的函数曲线 很可能看上去像下面这样 在某些时间段当中测试损失可能是下降的 但是超过一个点之后 损失开始重新地上升 这就是测试损失的变化曲线 关于我们所拟合的这些模型 这些模型 是用训练数据来拟合的 这些曲线就是训练损失 和测试损失关于模型复杂度的函数关系所应该呈现的样子 那么我们如何使用这些思想 去实际上选择一个模型 或者说模型的复杂度 然后基于我们选择的模型去作出预测 我们会在之后的课程中更加深入地讨论这些细节 在回归分析的课程 以及分类的课程中 [背景音乐] 翻译: RyukaSuu |审阅: 19waa Coursera Global Translator Community