[背景音乐] 翻译: RyukaSuu |审阅: 19waa Coursera Global Translator Community 那么 让我们来看一个聚类算法 它用到的度量标准是只看与集群中心的距离 好的 现在我们这里看到的是我们想要分类的数据 这个算法 我们称为k均值 我们从最终将得到k个集群的假设出发 也就是说你需要提前给定最终集群的数量 所以这个算法之所以叫k均值是因为我们有k个集群 并且 我们会看每个集群的平均值 只考虑集群中心 以此来将数据点分到不同的集群中 好的 让我们来谈谈如何初始化这个算法吧 我们首先来举个例子 我们有很多种方法来初始化集群中心的位置 我们一会儿将会更深入地讲这些问题 但现在但现在 让我们暂时假设我们会随机选出3个不同的集群中心 如果我们来跑一个3均值算法 那么第一步就是把所有的数据点分给 离它最近的集群中心 因此这里的这个数据点会被分到红色集群中去 这些数据点全都离绿色集群或者说这个绿色中心点最近 然后这些都离蓝色中心点最近 而做这些判定的一个方法叫做沃罗诺伊镶嵌算法 接下来我们看集群中心 我们可以进行定义了 这里我再换成洋红色的笔 这里是集群中心 我们就可以定义这里这些区域 而这些区域代表任何我们可能得到的数据点的范围 对于任何的数据点 - 这个颜色在红色背景下效果真烂 我有什么别的颜色呢? 白色怎么样? 很好 白色 所以我得到的某个观测值 如果它在这个红色的区域里 我就知道它是离这个红色集群中心最近的一个 所以这就是这些填色的区域所代表的意思 好的,那这就是算法的第一步 然后这些区域代表任何我们可能观测到的点所在的范围 不过由于这些初始的集群中心都是随机生成的 所以我不会觉得它们 反映了数据的真实情况 所以接下来我们想要让这个流程循环下去 一遍又一遍地根据数据点的分配情况 更新集群中心的位置 所以如果你还记得这个红色的中心的话 它只有被分到一个观测值 所以当我修正那个集群的集群中心时 这个中心就跑到了之前那个唯一的点上了 而对于这个绿色集群来说 这里是中心原来的位置 我们要把它移到这里 所有被分到绿色集群的 这些点的中心位置 这里就是这些绿点的中心 这就是新的集群中心的位置 同样的道理,我们也要更新蓝色中心的位置 这是蓝色观测点的新的集群中心 那么现在我们有了一组新的集群中心 于是我就可以重新绘制一下 这幅沃罗诺伊图 再把所有的观测点重新分配给 最近的集群中心 然后我将一直重复这个过程直到结果收敛 [背景音乐] 翻译: RyukaSuu |审阅: 19waa Coursera Global Translator Community