[背景音乐] 翻译: RyukaSuu |审阅: 19waa Coursera Global Translator Community 建立情感分析器 我要在这里加上一个好一点的标题 这就是我们下一步的任务 当你在建立情感分析器的时候 你其实说的是 正面评价 或者负面评价 也就是 赞 还是踩 如果你还记得的话 我们产品的评分 并不是分为正面评价和负面评价 而是一些数字 举个例子 当我把这些产品 评分这一列 进行排序 再显示 (输入product['rating].show这行代码) 但是我们希望显示的评价 是分类性质的数据 所以 (view='Categorical') 这样我们就得到了一张评价的图表 先简单浏览一下所有评价 你会发现大部分评价 都是正评价 大约107000条点评都是五星好评 所以说大部分人都给出了正评价 写下了他们为什么喜欢这款产品 人们往往不会写为什么不喜欢某款产品 剩下的一组点评就是大约33000条四星评价 然后就是三星评价 也有不少人写下了一些特别负面的评价 也就是给出了一星和两星 想想为什么人们会给出两星这个评价呢? 如果你真的讨厌某个产品 你也就直接给出一星差评了 这是我们从图表中观察到的 对于情感分析来说 我们要知道的是正评价和 负评价 让我们先做个随性的选择吧 假设四星和五星代表着人们喜欢这个产品 所以他们是正评价 一星评价和二星评价是负面评价 但是对于三星的评价 还蛮难抉择的 因为他们处于正负之间 我们先放任不管 我们现在要做的是所谓的数据工程 也就是定义 什么是正面情感 什么是负面情感 让我们现在来做 在接下来的部分中我们将要定义 什么是正面情感 什么是负面情感 我将要做的是 先忽略 三星的评价 如何做到呢? 我们现在产品中选择 我会在产品中选择所有 但是不包括 那些评分为三星的产品 所以代码是这样的 products=products[products['rating']!=3] 这就是我们数据工程中的第一步 下一步的任务就是 去找到那些正评价 或者负评价 所以 我会定义那些正面情感 是四星或者 五星评价 然后让我们继续 在我们的列表中添加一列 这一列会定义真正的情感 所以product 新的一列会叫做情感 (sentiment) 这会是一个二进制列 里面是0或者1 我们要定义的这一列 就是我们所说的 产品评分 它是否大于4 如果它大于4 那么情感这一列就是1 如果小于4 就是0 如果你看我们产品表格的标头 你会发现我们在右边有新的一列 叫做情感 (sentiment) 大部分时候情感是正向的 就像我们之前看到的那样 但还有一些负面的 也就是情感这一列的值为0 现在我们终于 可以去训练我们的情感分析器了 [背景音乐] 翻译: RyukaSuu |审阅: 19waa Coursera Global Translator Community