[背景音乐] 翻译: RyukaSuu |审阅: 19waa Coursera Global Translator Community 在这一部分, 我们来讨论如果做回归分析 我们将学习如何利用回归分析来预测房价 今天, 我们将使用python, 一起建立一个IPython Notebook来预测房价 房价信息来自一个真实数据集, 我们叫它 '国王郡数据' (King County data) '国王郡' 是美国西雅图所在区域的一个县 我和艾米就住在那里 接下来, 我们将使用这个公共数据集的一些数据 一起来建立一个 回归notebook 来预测房价 现在我们进入正题 现在我们这里有一个空的IPython Notebook 我们已经打开这个notebook 接下来有要做的是 首先改Notebook的标题 我们把Notebook名字改成 ‘预测房价’ (predicting house prices) 重命名以后 我到菜单的 'View' 选项,选择隐藏了页眉和工具栏 就是底下这部分 这样 我们就有足够空间 好 现在我们完成了隐藏 接下来我们要做的第一件事情就是 激活Graph Lab Create 使用这个工具 我们可以在Python中运行机器学习算法 我现在添加注解: "激活Graph Lab Create" 我们通过输入import Graphlab来激活 目前 我们只是开启了GraphLab Create 我们今天的任务是 预测房价 所以接下来首先要做的是 导入一些房价信息的数据 导入一些房价信息的数据 这是一个公共数据集 记录了在西雅图区域被售出房子的情况 现在我们把这个表格命名为 "销售数据" (data sales) 然后建立graphlab .SFrame. 还记得吗 我们讲过 SFrame是一种数据结构 它在Graph Lab Create中被用来表示单元数据 所以它的确是我们的核心数据结构 好 我们现在就准备导入一些房子的相关信息 所以,我们把它叫做 "家庭_数据" (home_data) 注意,IPython Notebook 完全为我们做了很多事情, 所以接下来我们可以看到: 我仅仅键入简单命令,就可以导入数据,并开启GraphLab Create 例如,我只是在这里输入‘sales' 你将会看到数据是这个样子 我向上滚动一点儿 输入'sales' 我们可以看到,对于一个日期,存在一个唯一标识符 (ID) 其后包含房子销售日期 价格 卧室数量 面积 看起来是美国模式的 假如你住在其他国家 对于房子来说 还会有土地英尺数 楼层等很多不同的分类 房子是否有观景台, 是否建在台阶上,这意味着房子在一个小山上 这意味着房子在一个小山上 另外还有很多其他各种房子相关的衡量标准 我们已经导入了一些关于房子的数据 看起来相当不错哦 我们首先要做的是 使用Graph Lab的canvas 来做一些可视化 所以我们要再来生成一个新的模块 我们注释为: 探索房子售价相关数据 我们要做的是: 探索房子售价相关数据 所以我们将做一些数据探索工作 我们将获得房子销售数据 然后把他们展示出来 当我们输入'show', 程序将会自动进行数据可视化 特别是 如果我们输入'view' 就不仅仅是让graphlab展示数据 而是 绘制一个散点图 我们马上就可以看到效果了 我们现在输入 ‘new scatter plot’ 它有两个相关变量 x-轴被用来表示居住面积 y-轴被用来表示房价 接下来 应该呈现给我们的是 一个散点图来展示居住面积和房价之间的关系 在生成Notebook时候 我有一个小技巧 有时候你要在一个新的tub中推出graphlab 但是呢 如果我们把这些散点图和简单的曲线图绘制在notebook内部 也不错 这样 对于其他人 我们就省去了打印并且让别人也可以看到 唯一解决办法是我们手动设置graph lab canvas的目标(target) 不要把浏览器设置为默认目标 而是把IPython notebook设置为默认目标 我刚刚输入了 canvas.set_target('ipynb'), 来完成设置目标任务 然后散点图就会被绘制显示在notebook内部 如果我们点击这里 会考虑两个轴 然后一起绘制 接下来 在x-轴 是房子面积 y-轴为房价 好 让我们接下来再多看一些东西 例如 更大居住面积的房子 如果我们把鼠标移动到这里 我们可以看到 这个大房子有5990平方英尺 真的是挺大的 相当于大约600平方米 它的售价为220万美元 一笔大数目啊 现在 你应该也注意到了这些关系 大房子常常售价更高 这一块聚集了大量的房子 大多数面积在1000-3000平方英尺之间 甚至在这个纵轴上 看这个房子 这是一个异常值 即使只有1910平方英尺, 也要1百50万 往下面看 这个房子 大概1700平方英尺 要卖14.9万美元 不同房子 售价存在巨大差异 这里有一个数据集中的异常值 这个房子3730平方英尺 售价为2百50万 [背景音乐] 翻译: RyukaSuu |审阅: 19waa Coursera Global Translator Community