[背景音乐] 翻译: RyukaSuu |审阅: 19waa Coursera Global Translator Community 在这个模块当中 我们已经了解了 回归分析是如何被运用来预测房屋价格的 并且 回归分析在一个很广的领域内都有着应用 在这门课程的引言中 卡洛斯也提到了这个 机器学习的流水线 我们从数据开始出发 把数据塞进 一些机器学习的方法里面 然后我们通过它来产生智能 好的 让我们深入这幅框图 然后扩展它 现在我们已经见过了 一些机器学习的工具 并且稍稍地探讨了一些细节 所以现在我们已经知道了 事实上用来拟合 我们的模型的是那些训练集里的数据 所以那些会作为我们的数据 在我们房屋的应用当中 我们要预测的是房屋的价格 我们收集的数据是这样的 我们有一张包含房屋编号的表 其中还包含了一组房屋的属性 以及屋子的售价 我们对我们社区周围一大簇的房屋收集这样的数据 然后 我们把收集到的数据填入一张表中 这张表就代表了我们的训练集 然后我们拿着这些数据 我们所做的是把它们塞进一些特征 提取器 在这个例子当中是一个非常简单的特征提取器 我们仅仅是从房屋的属性当中选取一些作为特征 在这个例子当中 我们会着眼于我们的特征集合 X 这些特征代表了一些事物 比如我们会考察房屋的平方英尺数 我们同样还会考察卫生间的数量 我们还会讨论使用更多特征的可能性 同样的 我们会在回归分析的课程当中来更多地讨论 但是 在这个模块中我们只会考察那两个特征 那么我们会用这些特征来做些什么呢? 我们的目标是 运用这些特征 并且 得到一个能够预测房屋价格的某种类型的模型 好的 所以我们的输出 也就是 我们所产生出的智能 就是房屋价格的预测值 我们会对我们训练集中的每一个房屋都作这样的特征提取 并且我们会带着它们的特征一起 把它们塞进这个机器学习的模型 并得到预测的房屋价格 那么我们所讨论的机器学习模型是什么呢? 在这个案例中 是回归分析 这就是我们在这里所关注的具体的机器学习模型 但是要记住 这个机器学习的模型有一组参数 我们把这组参数叫做W 它们是在我们的特征上所加的权重 举例来说 这个权重对应的是平房英尺数或者是卫生间个数 等等 更严格来说 这些参数被叫做回归系数 我们所讨论的就是从数据中去估计这些参数 所以我们的W就是我们对这些参数的估计 那么我们是怎么做估计的呢? 我们取出我们的预测结果 也就是预测的房屋价格 然后我们把它和真实价格相比较 也就是我们记录在我们的训练数据表中的 真实的售价 这里的Y就代表真实售价 我们训练集中房屋的真实售价 然后我们把它和预测的房屋价格相比较 我们使用了一种评价标准去衡量我们的预测是否够好 也就是用W hat作为参数的那个模型预测得是否够好 那么我们做得怎么样呢? 我们所讨论过的损失的度量方式又是什么呢? 我们所讨论过的损失度量方式叫做残差平方和 我们把真实的房屋售价和预测售价的差的平方加起来 在我们的整个训练集的房屋上进行求和 好的 所以我们的评价标准会使用我们的预测结果 以及真实的房屋售价 计算并输出损失 这个损失会输入一个机器学习的算法 这个算法用来更新 那些权重 也就是更新我们模型的参数 我们会讨论这个机器学习的算法 或者其他一些不同的变种更多一点 在我们的回归分析的课程中 但这就是一个机器学习算法的完整的流程图 对于我们的房价预测问题来说 在这边的这条回路中 我们使用了我们的预测结果 然后相对于真实的房屋售价去计算了损失 接着更新了我们的模型的权重 这个过程常常是以一种迭代的方式进行 我们会不断地更新权重 好的 如果我们抽象地来看的话 我们会看到的是我们有训练数据集 我们有一个特征提取的过程 我们有一些的机器学习模型 并且它会表现出一些智能 在这个例子中就是预测结果 接着我们会用一些评价标准去衡量 这个机器学习模型所产生出的智能的好坏 我们所使用的会是损失或者是正确率 这依赖于 我们考虑去度量它的方式 然后我们用一些算法来调整模型的参数 我们将会一再地看到这样的关于机器学习的流程 在这个模块中 我们已经了解到了如何使用我们的数据 通过一种叫做回归分析的方法去产生出智能 我们有一个能够把输入的特征和输出相关联起来的模型 然后我们在预测房屋价格这个情景下讨论了这个模型 同时你们也体验了十分有趣的 IPython notebook 从现在起 你们应该有能力去部署一个十分有趣的回归分析 模型到实际生活中了 [背景音乐] 翻译: RyukaSuu |审阅: 19waa Coursera Global Translator Community