[背景音乐] 翻译: RyukaSuu |审阅: 19waa Coursera Global Translator Community 我们刚才建立了一个简单的模型 解释了房屋售价和房屋面积有所相关 我们还研究了其他一些特征 比如邮政编码 很显然邮政编码对于房屋售价有着很大影响 也有别的因素影响 比如说卧室数目 也会对售价产生影响 那么问题来了 我们能否通过增加更多的特征得到一个更好的模型? 看这里 我们在这里要做的就是 建立一个回归模型 它包括了更多的特征 所以说这会是我们所说的一个更大的特征集 我们把第一个模型叫做 sqft_model (sqft模型) 那我们就把这个叫做 my_feature_model (我的多特征模型) 所以我们这个my_feature_model 还是会用 graphlab.linear regresssion.create 来创建 我们会使用 训练数据 就像我们之前所做的一样 我们的目标还是和之前一样 预测价格 不过在模型中 我会用到更多的特征 这些特征来自于我创造的my features中 让我们来执行吧 所以现在我在用更多的特征预测售价 好了 应该训练完成了 用了我的特征集中的特征 我忘记一共有多少个了 应该是8个吧 恩 我现在输入 print my_features(打印 my_feature这个特征集) 所以说你看到了 我一共用了 卧室 卫生间 客厅面积 占地面积 楼层数目 还有邮政编码 所以我们现在有了两个模型 我们有了sqft_model 和 my_features_model 那怎么比较这两个模型孰优孰劣呢? 那么在这里我要做的是那么在这里我要做的是 我要打印出衡量模型的结果 通过打印 sqft_model.evaluate 来衡量我的测试数据的结果 我要做的还有 和之前一样 打印出我测试数据的衡量结果 (通过print my_features_model.evaluate这个命令) 让我们开始比较 看看什么会发生 开始咯 我们可以看到对于简单的sqft_model 最大的误差在400万 而my_features_model 的最大误差在349万 就当做350万好了 降低了一点 均方误差也就是误差的平均值 从255000降低到了179000 如果你添加了更多的特征 你的误差会降低更多 因为这边的数据量很大 你可以从数据中发掘更多的东西 话说回来 通过增加一些额外的特征可以使我们模型更加优化 [背景音乐] 翻译: RyukaSuu |审阅: 19waa Coursera Global Translator Community