[背景音乐] 翻译: RyukaSuu |审阅: 19waa Coursera Global Translator Community 我们现在假定没有预设的标签 而我们打算推断出相关文章的分组也就是集群 这里的输入量是一个向量 这里我们标绘出的每一个观测量都是一个字数向量 在这里 我们只讨论一个最简单的例子 一个只有两个词的词汇表 所以我们这里有一个向量 包含单词1和单词2(的字数) 这个坐标轴表示单词2 这个坐标轴表示单词1 当然 别忘了现实中我们通常会有一个相当大的词汇表 因此我们会有一些超高维的向量 那么 当我们画出我们的观测量时 它们其实是在这个高维的空间中的 但为了方便呈现 这里我们只看这个二维的图示 那么我们这里有一大堆文件 全都用词汇表中的这两个不同单词的出现的次数来表示 好的 那么这是一个聚类算法的输入量 而输出量则是集群标签 所以我的意思是这一个观测量 还有这里的所有这些观测量 [背景声音] 它们都被标记为红色 那它们可能会被指定为某某第1号集群标签 让我们就这样称呼它吧 1号集群 对每个文件来说 它都会得到某个标签 所以这些(圈内的点)是标记为第1类 而这里这些都得标成别的标签 假如说这是2号集群 那这个观测量就是第2类 而所有这些观测量会得到第3类的标签 那么这就是这个算法的输出值 现在你可以做的是事后回溯 你可以翻阅一下1号集群中的一些文章 然后说 这个集群其实是一个关于体育的集群 而我只是想明确地记下来这个标签是事后回溯得到的 好的 那么这是非监督学习任务的其中一个例子 因为我们的运算不需要任何(给定的)标签 我们用到的只有观测量本身 并试图揭示这些观测量中的一些结构 我再重申一次 这里的输入量是我们的字数向量 输出量是 对语料库中的每一个文件 我们都为其添上某个集群标签 好的 那么是什么定义了一个集群呢 每个集群都有一个特定的集群中心 所以我可以把这些集群中心用X来表示 那么每个集群还有一个形状 这些椭圆形表示这里的每一个集群的形状 因此 当我们考虑这一个观测点的时候 这个观测点应该被标记为绿色或者红色 这也就相当于我们在根据这个集群的形状 来考虑这篇文章和那篇文章有多相似 因此我们给每个观测点评分 评分标准是集群中心以及集群的形状 在本例中 因为这个集群的形状是有点斜长的椭圆形 这个观测点事实上应该被分到绿色的集群而不是红色的集群 而另一个很常用的方法是 不考虑集群的形状 只看集群中心 所以我们只需要测量这个观测点(到集群中心)的距离 不如让我修改一下颜色 考虑这个替代方法 因为我们只需要看观测点距离 绿色集群和红色集群中心的远近 在本例中 要判断这篇文章是属于绿色还是红色集群 就比较困难了 但是 在一些其他的情况下 比如这个观测点 用第二种方法就很容易判断出它应该被分到红色集群 翻译: sfwlily |审阅: XXX Coursera Global Translator Community