[背景音乐] 翻译: RyukaSuu |审阅: 19waa Coursera Global Translator Community 然而 为了建立文本文档的混合成员模型 我们来介绍另外一个聚类模型 用于代替之前介绍的高斯混合模型 这将很有帮助 强调一下 我们将会到之前的聚类模型 我们会假设 这种简单结构 即假设每一个文档 仅被归为一类主题 到现在为止 我们把所有文本文档表示为 tf-idf向量 然后我们就得到有这些 跟语料库里的文档 相关联的tf-idf向量 我们已经利用高斯混合模型 在这个tf-idf空间里发现了一些聚类 但现在我们要做的是另外一种可选择的 文档表示方法 叫做词袋表示 我们把文档里所有的词汇简单地 装到一个袋子里 然后把袋子摇一摇 这样词袋表示法与词汇顺序无关 所以文档的"词袋表示"就是简单的一个无序的词汇"集合" 但这里的集合并不是严格意义上的集合 因为这个集合里会发生 一个单词多次出现的情况 如果有一个单词在原文档里多次出现 这种单词重复出现在"集合"里的情况 使得它与标准集合不同 通常被叫做"multiset" 现在我们基于这个新的文本表示法 来介绍一个聚类模型 开始我们需要确定给定文档 相对于一某个特定聚类的 先验概率 并且 这些"主题流行度" 这将和高斯混合模型里的情况完全类似 在高斯混合模型里,这就代表语料库范围里的话题流行度 但现在 我们的"似然估计项"将会不同 因为 我们现在不是像在高斯混合模型里那样 在一特定的高斯模型下 给每个文档打分 而是 我们将里使用文档及其对应的"词袋表示" 利用基于所有词汇的主题概率向量 给集合里的每个单词打分 具体地说 每一个主题都将被关联到 一个基于词汇表里所有词汇的概率分布 有了这个概率分布 我们就可以给文档里所有的单词打分 也就是看文档里每个单词出现在某一具体主题 文章里的可能性有多大 然后对于所有的主题 我们都给文档里的单词打分 而且我们利用先验概率和似然估计去选择主题 就像我们在高斯混合模型的例子里做的一样 需要清楚的是 对于任一主题来说 比如有关科学的 有关技术的 有关体育的 当然 我们并没有这些主题标记 他们将会被当作聚类一 聚类二 聚类三 我们有一个对应词汇表里所有单词的概率向量 我在幻灯片里展示了所有单词基于主题的概率分布 并且以概率从大到小的顺序将所有单词排序 然而在上一个幻灯片里 我仅仅列出了 在文章里出现的单词 现在我们就可以比较和对比高斯混合聚类模型 和我们刚刚学习的聚类模型 这两个模型都是基于先验主题概率的模型 事实上在我们考察某一具体文档之前 这一文档属于某一 主题聚类的概率就已经被这些 pi[k] 确定 在两种模型里 这个概率都是这么确定的 但在混合高斯模型里 文档被表示为tf-idf向量 或者是单词计数向量 我们根据每一个高斯分布 给这个向量打分 记住 每个聚类都是由与其对应的高斯分布定义的 你可以根据每个高斯分布 为一个文档打相应的分数 然后 利用这些先验概率项和似然估计项 来得到 某一给定文档的"聚类分配值" 但现在每个文档都被用"词袋表示法"所表示 当我们给文档"打分"的时候 我们会考察根据词汇表特定主题概率向量所得到的 文档里每个单词的概率 [背景音乐] 翻译: RyukaSuu |审阅: 19waa Coursera Global Translator Community