[背景音乐] 翻译: RyukaSuu |审阅: 19waa Coursera Global Translator Community 好 我们先不管之前的分析 我们先来思考一下关于这个模型 房屋价格和房屋面积的关系 关于这个 我们会用到一个叫做线性回归的方法 为了充分发挥所有的收集到的观察样本 我们要做的是 能够更好地理解 面积和 房子的出售价格 所以说最简单的模型 就是在这些数据中拟合出一条直线 这就是一条拟合出来的直线的例子 这条直线有着斜率W1和截距W0 我们通常把W1叫做特征X的权重 也就是回归系数 这个权重就是 不同的X 也就是不同的房屋面积 它会对观测的房屋价格有多大的影响 这里有两样东西 一个是截距 一个是斜率 也就是我们模型的参数 为了清楚地表达 我们写下了这样一个函数 一个线性函数 这个下标w 代表着这个函数的参数 W会是w0 和 w1的一个集合 这是我们通过数据拟合的直线 那么问题来了 哪一条线是最好的直线 对于这组数据 也许我们可以画另一条线呀 每一条线都会代表这不同的一组参数w 所以我们的问题就是 如何去选择一组W作为我们模型的参数 好了 我们先说一个概念 就是关于 给定一条直线 怎么去定义它的 有一种很常用的拟合方法 那就是通过残差平方和 所以说通过取残差平方和的最小值 我们能够得到所要求的拟合直线 让我们来看样本数据 我们看每一个点 离 我们预测的模型的值 到底有多远 也就是直线上的点 让我们看每一个点到直线的距离 我们其实是在看这些距离的平方和 所以也为什么叫做残差 因为他表示着你的预测值和真实的数据的值差了多少 我们会看这个距离的平方和 并且把他们加起来 这个就是等式 非常的直观 我们这里有价格 也就是我们第一件房屋的真实售价 那么这里的这个因式是什么呢? 恩 就把他叫做房屋价格1吧 这个点呢? 这个点代表着 如果这个点 有着一定的面积 就是我现在划出X的这个点 代表着这一项 (w0+w1*sq.ft house1)^2 所以说这个值就是正好位于我们线上的点 所以说 我们房屋价格1减去这边的这一项(w0+w1*sq.ft house1) 两者之差 就是我们房屋真实售价 和我们模型预测售价 也就是这条直线 它代表着 对于一定的房屋面积 我们预测的房屋售价 取这两者之差 并且平方它们 然后把每一个房屋 (观测值) 的两者之差的平方 加起来求和 所以说 来思考一下 通过这种标准 也就是残差平方和 找到的最好的拟合直线 我们所做的就是 去找到所有可能存在的W0和W1 你看 这边就是可能存在的直线 我们在这么多直线中 取一条能够使得残差平方和最小的直线 所以我们就把这些W最后的结果 叫做 w hat 所以记住将会有W0的集合,以及W1的集合 也就是我们的截距和斜率 好 这就是我们 计算w hat 有效而简介的算法啦 通过去找所有可能存在的ws 我们会去看这个模型的参数 我们还会在回归课程中讨论这些算法 让我们先来考虑如何去衡量这些参数 并且预测我们房屋的价格吧 不好意思 这个星星不应该在这里 这个应该是 w hat 我画了一条直线 穿过了这些点 也就是用了我们预测的w0 hat 和 w1 hat 恩 这个是我的房子 这是它的面积 所以说对于这个面积的房子 来猜测它的价格 也就是这个直线所预测的价格 所以你看我 就计算出了 我这套房子 这个面积 的价格 也就是w0 hat 加上 w1 hat乘上我的面积数 非常简洁明了 [背景音乐] 翻译: RyukaSuu |审阅: 19waa Coursera Global Translator Community