[背景音乐] 翻译: RyukaSuu |审阅: 19waa Coursera Global Translator Community 我们已经做了一些简单的回归 只关于我们数据的居住面积的一些基础的回归 但 如果你记得的话 我们的数据集还有其他与之相关的列 可以试着给你一点点直观的参考 所以我们下一步要做的是 #挖掘数据里的其他特征 所以我们来探索其他我们可能用到的特征 我们将用到一系列的特性 所以 我们把各种特征列出来 我将探索它的编码特征 这些特征是 卧室和浴室的数量 让我们想想 还有啥? 还有居住空间的面积 这是我们到现在一直在研究的 除了这些 还要包括建筑用地的面积 这是属于这栋建筑的周围的面积 房屋的层数 最后 我还囊括了一个变量叫做ZIP code Zip code就是 其他国家的邮编在美国的叫法 巴西叫它 SAPI 这个在不同的地方有不同的叫法 这就是我们引入的这个特征 如果我看着这个Sales 这个数据 然后我选择其中某一列 选择特征列 让我们表达的更清晰些吧 与其叫特征(features) 不如叫我的特征(my_features) 重新运行一下 按shift+回车 这样这就是我my_features 列 然后我输入sales[my_feature].show()来打印出结果 记住了 我们可以用show这个指令来打印任何GraphLab 创造出来的东西 在Sales这个SFrame里面 选择my_features这些列 然后对这些特征进行一个可视化 让我带你看一下可视化的结果 把鼠标移动到这 看到卧室的数目 有13种不同的类型 事实上有些房子有着10间卧室 大部分房子是三间卧室 有的四间 有的两间 有的五间 有很少一部分有更多的卧室数目 还带着卫生间的卧室 美国的房子 你有这着带着分数的卫生间数目 2.5间卧室是最常见的数目 这意味着 有的房子带着 自带卫生间的卧室 这个叫做完全卫生间 代表着1 如果有的卫生间只有一个水槽和马桶 这只能算半个 所以说最后的数目是2.5个 如果你的卫生间 带着一个水槽 一个马桶 和淋浴的地方 但不包括浴缸 在美国这算0.75个 但不包括浴缸 在美国这算0.75个 好了 所以你会发现1个卫生间是第二常见的 然后是1.75个 也许意味着你会有一个完整的卫生间 和一个只有淋浴没有浴缸的卫生间 同样你可以看到分布 对于居住面积也是亦然 对于楼层来说 大部分房子是一层楼 有的是两层 然后就是邮编了 最常见的是98103 也就是大部分住在西雅图的人的邮编 好的 那么 我们可以看到数据不同列的高度可视化的结果 让我们看看数据之间的关系吧 继续做一些有趣的可视化 我还是会用到Sales这张表格 然后输入.show() 但是我不想看到散点图 所以在view这边我输入等于'BoxWhisker' BoxWhisker会给我们带来两个变量之间的关系 在X轴我想要用zip code 也就是邮政编码 在Y轴 我想用价格来表示 也就是 我们可以看到位置(邮编) 和价格之间的关系 所以这就是所谓的Box whisker 图了 然后按下Shift+回车 就能绘制出来 这就是我们所看到的 举个例子 这块区域的邮编 98003 价格特别低 平均价格是红色的线 而且这块区域价格没什么波动 但是这一块98004 那个是003 这个是004 有着最高的价格 比003 高多了 100多万 而且有着巨大的上下限 所以说总共的范围是多少呢 最低的大概在80万 最高的大概是400万 我仅仅显示了一些邮编地址 如果我往下拉你会看到更多的 有没有看到这个 这个价格都要突破天际了 超出范围了 谁家房子这么厉害 大概在700万的样子 邮编地址是98039 记住这个数字 我们在这节课最后会揭晓真相的 这很有趣 [背景音乐] 翻译: RyukaSuu |审阅: 19waa Coursera Global Translator Community