让我们继续讨论预测房价的问题 这是一个很重要的问题 至少对美国而言很重要 据估计 美国家庭会把在房地产投资50%的财产 显然 房产价格就变成了一个很重要的问题 对于消费者 个人 或者说是政策制定者 都很重要 打个比方 我想卖房子了 我有一栋 又大又好 绿黄色的房子 但是我不知道还有什么值得说的 我也不知道我房子的价值 也不知道该如何预估我房子的价值 如果我去看一些邻居最近出售房子的售价 来预估我房子的售价 是一件很合理的事 对于 一块离我很近的区域 我想知道那些房子卖了多少 和那些房子长什么样 我要做的就是 把那些房子记录下来 每一间房子的售价是多少 还有那些房子的面积是多少 我想说的是 最重要的事那些房子是否和我的房子差不多 还是不一样 作为一名统计学家 我将要把我观测到的这些值 把他们绘制出来 在美国房屋的面积的单位是平方尺 所以这就是我的X轴 y轴是我房屋的售价 这就是我的变量y 每一个点代表着一所房子的售价 这个点是 我附近区域最近卖出的售价 这边我们会用到一些术语 就是 当我们说到回归的时候 人们会说到x 也就是变量x 作为特征 这也就是我们要使用的术语 人们也会叫做协变量或者说自变量 有时候也叫作独立变量 而我们的y 我刚才说的 我更倾向于叫做观测值 有时候人们会叫做 因变量 好的 那么 那么问题就是 我如何使用这些观测值来预测我的房价呢 我会看一下我房子大概有多少面积 然后找到那个面积房子的售价 大部分情况下 很少会有 出售的房子和我的房子的面积一模一样的情况 所以我不能用这种方法 我会用更加灵活的方法 我会看我附近的住宅 不光光是地理位置上的附近 而是指 房屋面积和我差不多大小的房子 所以我要说的是 让我们看一下房子 在一定范围面积的售价 即使通过这种方法 在这个例子中 我们会看到有两所房子处于这个区间 而我们用这两个点预测 我觉得有点不太好 我将要做的是把别的观测值都删掉 因为他们和我要预测的房屋售价一点关系都没有 问题是 这个合理吗? 我们是否真的觉得 别的观测值一点信息都不包括吗? 当我们看数据的时候 并且思考数据的时候 我需要把所有信息都考虑到才能得出良好的预测结果 翻译 tod | 审阅 PhoenixLIU Global Coursera Translator Community