[背景音乐]
翻译: RyukaSuu |审阅: 19waa
Coursera Global Translator Community 好的 这就是我们即将使用的数据 这是一份十分整洁的数据 让我们进一步研究它 在课上 艾米莉 (Emily) 已经讲了建立单词统计以及 其中的一些挑战 所以让我们从简单浏览一下单词统计开始 举个例子 让我们尝试取得 关于奥巴马 (Obama) 文章的单词统计 我们在维基百科 (Wikipedia) 上能找到
一篇关于巴拉克·奥巴马 (Barack Obama) 的文章 我们首先要做的是快速浏览一下本篇文章的 单词统计 我将使用我们之前建的变量Obama 我将向这个变量新添一列
并命名为Word_count 该列将会用来储存对巴拉克·奥巴马 (Barack Obama) 文章的单词统计 我们直接调用它就可以实现储存了 和我们在分类情感分析中说的一样
你可以编写 你可以自己编写函数来计算单词统计 我们在我们的文本分析工具栏中已经有一个现成的了 我就准备直接使用这个 就叫做count_words 看到另外一个选项了吗 别选他 就选words 会计算单个的单词 一个一个 函数的输入值 是Obama['text'] 搞定了 看一下 打印出 obama['word_count'] 我们去到这里 这样我们就打印出了奥巴马单词计数word_count的结果了 你看到operations 出现了一次 represent 出现了一次 office两次 unemployed一次 等等等等 这些结果看起来没什么冲击力 所以准备继续深入 我将要给你看一个数据工程的小技巧 下一步 标题是 给单词计数排序 我们要检查奥巴马这篇文章的TF/IDF 这样你就才能更好地理解 这个 单词计数是Python的一个字典 每一个单词是一个键 比如说Honolulu 也就是他出生的地方 天气 婚姻等等 然后就是值 也就是单词的数量 在这里是1 2 3 5 30 等等 也就是单词出现的次数 然后我们要做的就是排序 我们把他放到一张表里面 一列是单词 也就是字典的键 第二列就是计数 然后给这张表排序 排序的方式也是学习python的方法 但是我给你准备来个捷径 所以说我创建了一张表叫做obama_word_count_table 然后在obama表里所有的列 选择word_count 这样会让打印出的结果更加简洁 你当然你可以用整张表 这里用到的函数叫做stack 这个stack函数很有用 它把Sframe里面字典的一列取出 然后和另外几列一起放在一起 在这个例子 一共两列 一列是单词 一列是计数 所以说我要堆叠在 一起的是单词计数word_count 也就是我们最关心的一列 它会产生新的几列 我们要给他们取个名字 new_column_name 在这个例子中是两列 所以我就叫做 单词word 另一个家叫做计数 count 如果我执行 然后看一下 这张表的前几列 你可以看到单词被整齐的放在了一起 但并没有被排序 所以下一步我们要根据计数进行排序 很简答的步骤 调用sort函数 进行排序 根据count 这一列排序 也就是根据计数排序 然后我输入 asceding=false 进行降序排列 不是升序 像 1 2 3 不是之前用的升序 而是降序 3 2 1 输入回车 你可以看到最常见的是 the 然后是in and of to his 最后是奥巴马 然后是act a he 这些单词都是没什么意义的 在课程中 我们和Emily一起合作 她觉得这个情况 应该把那些没有信息的单词从重要单词中去除 这也是为什么我们要介绍TF IDF [背景音乐]
翻译: RyukaSuu |审阅: 19waa
Coursera Global Translator Community