这个模块中我们已经讨论了一个文件检索的任务还讨论了一个聚类的概念用来揭示数据的潜在结构我们还谈到了一些聚类这个概念有用武之地的领域现在让我们来从头讨论一下一个聚类算法的工作流程如果你觉得你觉得你已经对此了然于胸了因为你已经在另外两个模块中见过这个流程图了那么赶快醒一醒因为这次这个可是有点不太一样的好的让我们来看看我们的训练数据在这里我们的训练数据是用来进行文件聚类的文件代号和文本表所以我们有一堆文件以及与它们对应的文本然后我们将会提取一些特征量我们之前谈到过一些描绘一个文件的不同的方法这里我要用到其中一个叫做"tf-idf"的方法全称叫做词频-逆文档频率法我们下一步要做的是试着用这个表示法来对我们的文件进行聚类所以我们将把这些特征量放入一些机器学习的模型中在这里我们用的是一个聚类模型对每个文件我们会输出一个聚类标签那么这里的输出量y帽就是我们的聚类标签好的有意思的是因为我们打算评估我们的聚类结果的准确度当然这里我们并没有真正的集群标签因此我还是把它称为我们的预测或者预估标签而我们并没有一个可以用来比对的真实标签因此这里的y 它并不存在这是因为就像我们提到过的那样我们的设定是无监督式学习无监督式的好所以我们没有真正的标签但是我们需要用某种方法来评估我们的聚类准确度所以让我们在这里画一个小的图也就是我们的沃罗诺伊图还有我们的k均值算法以及集群中心的集合我们还有数据我不知道假设我们的数据长这样我在这里画一下点我们的准确度的度量方法也就是我们用来质量评估的是聚类的一致性我们会测量每个观测点到它所在的集群中心的距离一个好的聚类算法中这些距离会很小所以我们的目标是最小化这些距离而我们需要测量的是准确度要测量这些距离我们需要原始数据我们需要我们的词频-逆文档频率所以那些值会从这里输入然后我们还需要集群中心所以W帽也就是我们的当前估计值是我们的模型参量而k均值算法这是我们的集群啊让我看看我们有没有评对这个词集群中心那是W帽的指代意义当然我们也需要用W帽来测算距离因此与其用真实的集群标签来评估准确度我们不如用文件标识和集群中心把原始数据输入到质量度量中用于计算到集群中心的距离那是我们计算误差的度量虽然它其实不是误差只是能估量啊哦只是能估量质量所以我就不把那个词写在那了好了我想这是有点乱但是就让我们标成到集群中心的距离那我们的算法是什么呢？我们之前谈到过k均值是一个聚类的方法当然还有其他的方法但是这里我们集中讨论k均值那么 k均值是怎么算的呢？让我们重新画一下这个图好吧干脆让我换一种颜色好了那样我们可以节约点时间好的 k均值是在试着最小化这个距离或者说这些距离的总和最小化的方式是通过迭代循环所以这个是我们之前的W帽我们把它更新成这个新的W帽用来表示这些点的质量中心因此这些点会发生偏移而这个点会直接放在这个观测量上这就是这个聚类算法的工作流程让我们再从一个高水平上来总结一下我们拿到原始数据用某种方法来表示它们可以是单词统计量可以是词频-逆文档频率或者这类数据的标准化值我们可以用像二元或者三元词组来表示我们的文件然后我们的聚类算法比如k均值算法可以输出集群标签并且我们可以通过迭代来一次次地更新集群中心也就是这个聚类模型的参量迭代更新的依据是观测量到集群中心的距离不同于其他模块在这个模块中我们为大家详细地讲解了一些算法的背后的细节尤其是对聚类我们讨论了k均值算法以及文件检索问题我们还谈到了相邻社区检索问题并提供了解决问题的算法的细节你还特别研究了用ipython Notebook 如何进行维基百科条目检索因此到这里你应该可以走出课堂搭建一个炫酷的新闻稿件的检索系统或者一个炫酷到我都想不到的其他检索系统当然还有好多好多有趣的例子所以同学们请务必走向大千世界多多探索新的好主意 [背景音乐] 翻译: RyukaSuu |审阅: 19waa Coursera Global Translator Community