[背景音乐]
翻译: RyukaSuu |审阅: 19waa
Coursera Global Translator Community 在这个模块里艾米莉 (Emily) 涵盖了用来检索文件和 研究数据表达的多种技术 比如单词统计和TFIDF(词频-逆向文档频率) 现在 整合这些想法 我们将得到一个非常酷的Notebook 并且将使用TF-IDF技术 建立一个文档恢复系统 所以 让我们动手做这些吧 像往常一样 我们将使用iPython Notebook 这一次 我要把标题改为"Document retrieval (文档恢复)" 这样就好了 还是像往常一样 我将隐藏标题栏和工具栏 从而多给我们一点空间 好的 让我们来启用GraphLab Create 所以我们要写 "import graphlab" 因为我们会在我们的Notebook中再次用到它 现在 我们要做的第一步是导入一些数据 让我们导入一些文本数据 这是一份有趣的文本数据 它来自维基百科 (Wikipedia) 它是一些关于人物的页面 很酷的数据
我即将导入它 我们会用到变量people 这是一个SFrame 它等于graphlab.SFrame 来自名为 "people_wiki" 的文件 就在这里 这样就可以了 我们正在导入它 我们首先要做的是看这个文件的最初几行 我继续操作 你们应该能看到 所以这个URI基本上就是这个页面在维基百科 (Wikipedia) 上的位置 这是相关人物的名字 这是该人物页面上的文本 并且你可以在这里找到相当多的人的数据 如果你键入len(people) 显示长度 在我们这个数据集下 并敲下回车 你看我们所谈论的这个数据集中约有5万9千人 这是个不错的数据集 并且你将看到
我们要用TFIDF技术来处理一些十分有趣的文件 甚至这种相对较大的数据集 我们要做的第一件事就是浏览数据 所以让我们浏览数据集并 查看它包含的文本 让我们开始具体关注某一个人的数据集 我们将看到 美国现任总统巴拉克·奥巴马 (Barack Obama) 的页面 从这些人的s-frame中 我将选择姓名为... 这一列是姓名栏 姓名为巴拉克·奥巴马 (Barack Obama) 的那一项 然后我敲下回车键 我就创建了一个名为Obama的新变量 如果你大略扫一眼 就会看到它含有奥巴马 (Obama) 页面的网址 巴拉克·奥巴马 (Barack Obama) 的名字 以及该页面中的文本 然后让我们进一步深入 看看这个文本是什么样的 关于巴拉克·奥巴马 (Barack Obama) 你将会看到 "巴拉克·侯赛因·奥巴马 (Barack Hussein Obama) 
出生于1961年8月4日" "现为第44届美国总统" 该文本很符合我们对这种数据的预期 然后我们还可以看看其他人的数据集 举例来说， 这里有个名叫乔治·克鲁尼 (George Clooney) 的演员
他出演过很多电影 看这个people SFrame 我们将选择... 当然这也是一个我们现在几乎随处使用的筛选操作 我们选择名为乔治·克鲁尼 (George Clooney) 的那一项 然后我将继续 向你这是我们得到的
有关乔治·克鲁尼 (George Clooney) 的文本 你会看到乔治·蒂莫西·克鲁尼 (George Timothy Clooney) 出生于1961年 所以 大致来讲他和巴拉克·奥巴马 (Barack Obama) 同龄
但他不是总统 他是一个美国演员、作家、 制作人、导演以及 活动家 就在这儿 [背景音乐]
翻译: RyukaSuu |审阅: 19waa
Coursera Global Translator Community