[背景音乐] 翻译: RyukaSuu |审阅: 19waa Coursera Global Translator Community 开始前,我们先看有几种方式 来表示我们的文档 一种很简单的方式是 把文档表示成一个包含单词数量的向量 这是一个“词袋”(bag of words)的例子, 文档就像是一个装满单词的袋子 我们假设一个很简单的文章 里面仅包括了两句话 “Carlos 把这种运动叫futbol” “Emily 把它称做 soccer” 词袋模型的做法是, 我们忽略单词的顺序 我们仅考虑每个单词在文章中出现的次数 这构成了我们的词频向量 这个代表文章中所有单词的向量 假设这个表示“Carlos”的索引 这个表示“Emily”的索引 这儿是“the” 这儿是“soccer” 和 “football” 还有什么? 还有“sport” 和 “calls” 两个单词 我们来看下,“Carlos”出现了一次 “the” 出现了两次, “Emily” 一次 “soccer” 一次, “calls” 两次 “sport” 两次, “football” 一次 好了,这就是我们的词频向量表示的 这个简单的文章 但是,如果要考虑单词的罕见性,这中简单表示就会有问题 比如,有个文章包含大量的常见词 如“the”、“player”、“field”和“goal”, 但是仅有 几个不常用词、但是却很重要的单词如“futbol” 和 “Messi (梅西)” “Messi”出现在了Carlos正在读的那篇文章中 (这个单词的出现)对这篇文章的内容是一个重要、特别的提示 这个单词对Carlos感兴趣的内容的提示,要比其他 “player”、“field”对该运动的揭示性要强地多,也比 另外的很多事情要强。 所以,当我们进行距离计算时,如果使用 原始的词频向量,那些非常常见的单词 因为高词频量的缘故会左右距离计算 情况会变得更糟,如果文章中包括大量的“the”、“and” “of”、“in”, 因为这些单纯基本上在衡量 文章相似性方面毫无价值可言 在距离计算时, 它们的出现会把其他重要单词淹没的 为了避免这个问题,一种替代做法是使用“TF-IDF” 也就是词频-逆文档频率法(Term Frequency Inverse Document Frequency) 这个概念我们在第一节课里面也提到过 在这儿再复习一下,这个概念在本节课中 要大量使用 TF-IDF对重要单词的表示通过下面方式实现 强调那些在“局部”出现次数多, 什么意思,就是说在在读文章中出现次数多 而在全部文章中出现次数少的单词 也就是说,在整个语料库中很少看到这些单词 所以,如果我们看到这两种情况的结合 那么则毫无疑问,这就是我们要选择的重要单词 量化表示为 首先,局部出现次数多 表示为词频 这只是简单的对单词出现的次数的统计 针对我们的在读文章或者查询文章 做法很简单,(用文章生成词袋),摇一摇 数数出现在其中的单词 这就是单词在该文章中出现的次数 然后,我们要算出这些单词在全部词汇中出现的次数 我们要看这个文章库,在那儿的每个文章 一种常见的计算逆文档频率的做法是 把所有文章的总数除以 包含指定单词的文章的总数加上1, 再对结果取对数 利用这个公式,我们才得以对 那些在很多很多文章中频繁出现的单词进行影响消减 现在我们有两个指标 在这两个指标之间要做一个折中 这就是词频-逆文档频率法的做法 简单的说,就是把两个指标相乘 再重复一下,采用词频-逆文档频率法来表示 文章,我们会对那些在在读文章中出现次数多、而在 全部文章中出现次数少的单词增加权重 对那些如“the”、“of”和其他 诸如此类那些,在在读文章中出现次数多、但同时 也在所有文章中出现次数多的单词降低权重 使用这种表示的文章,在进行距离计算时 那些对在读文章重要的单词 就会体现出跟多的重要性 [背景音乐] 翻译: RyukaSuu |审阅: 19waa Coursera Global Translator Community