[背景音乐] 翻译: RyukaSuu |审阅: 19waa Coursera Global Translator Community 让我们花点时间来介绍一下混合模型 在这里先引入一个有启发性的应用 我们将利用这个想法 去把相关的图片分组 也就是去分类图片 我们使用这个应用的原因是 它在视觉上很有吸引力 而且这种结构也非常直观 记住 我们的目标是发现 比如说 所有跟云相关的图片的群组 所有跟日落相关的图片的群组 所有跟狗相关的图片的群组 所有跟粉红色花相关的 所有跟海洋相关的 等等类似群组 记住 因为我们在用非监督学习的方法来解这个问题 这个算法的输出就将是这些群组 或者说是 聚类分配 而不是"标记" 所以我们不会去把某个群组标记为"云" 但是 你可以事后在去打这些标记 好的 首先我们讨论一下如果表示图片数据 在本单元里,以及在你将要去做的作业里, 我们将使用一种非常非常简单的图片表示方法 我们简单地将图片的RGB值平均 也就是将图片的所有像素点的RGB分量值平均 得到这个图片的RGB向量 例如,这张云图片的RGB向量为[0.05 0.7 0,9] 在这里我们已经规范化了所有 的RGB分量值 使其范围在0和1之间 然后这张日落图的R分量的值为0.85 G分量值为0.05 B分量值为0.35 最后这张森林 图片的RGB向量为[0.02 0.95 0.4] 这样我们就有了图片的"量化"的表示方法 我们现在转过来看我们的数据分析和模型 一开始 假设我们利用所有的云相关的图片 假设这些云图片都是有标记的,事实上他们并没有标记, 这样这个聚类任务才有意义 但是为了建立这个混合模型 我们假设可以抓到所有的云图片 然后我们只看 RGB向量里的蓝色分量 然后用柱状图 来描述数据集中的所有云图片的蓝色分量值 也许这个柱状图看起来是这个样子 均值 相当高 有0.8 但是方差也比较大 这个柱状图看起来像一个钟形曲线 也许有很多图片的蓝色分量值都在0.8左右 相当少的云图片的蓝色分量值能达到极高或者极低 接着我们来看所有的日落图片 做一个类似的柱状图 但现在 因为我们在看的都是日落图片 你不会在这些图片里发现很多蓝色的元素 或许蓝色分量值的均值 只有0.3 而且有可能这个分布的方差也会比较小 这个分布即为所有日落图片的蓝色分量值的分布 我们可以用同样的方法去处理森林图片 可能这里的蓝色分量值会比日落图片的高一点 因为 森林图片里可能会有一部分显示蓝天 也许这个值会稍高于0.42 而且分布的方差也会比日落图片的要大一点 好的 记住一点 我们的图片并没有被标记为"日落" "森林""云" 我们仅仅有一大堆混杂在一起的图片 对于每一张图片我们仅有它的蓝色分量值 我们可以用柱状图来描述所有图片的蓝色分量值的分布 也许这个柱状图会长成这个样子 有三个"驼峰"一样的起伏 这个图形的形状和所有图片分成三类正好对应起来了 就是我们之前讲的日落图片 森林图片和云图片 如果我们看单独一张图片 比如 这张森林图片 我把图片放在了大约0.4的位置上 这张图片的蓝色分量值大约就是0.4 根据这张柱状图,我们可以说,有个群组的 图片 这些图片都有比较高的蓝色分量值 我把这些图片归为一个聚类 一个群组 这张森林图片显然不在那个群组里 但是现在在这个位置上 我也不太确定 看起来那里有两个群组 而且我也不知道这张图属于哪一个 在这种情况下 我们可以做的一件事情是我们可以看 "观察要素"的另一维度 比如我们可以看这些图片的红色分量值 如果我们看所有森林图片的红色 分量值的柱状图 所有这些森林图片的这个分量值也许相当低 因为在森林图片中不会出现很多红色 但是如果我们观察日落图片 那么红色 分量值就将会很高 也许均值会达到0.9左右 然而当我们看蓝色分量的时候 想要区分森林图片和日落图片比较困难 当我们看红色维度时 也许在那个维度上 图片比较容易区分 所以我想要表达的观点是 事实上有时候当我们思考如何 做聚类的时候 思考如何确定把观察数据分配到 某一聚类的概率 当我们去看多维空间而不是仅仅看 一位空间 比如只看蓝色分量 我们就能比较容易区分不同聚类 好的 直到这里 我们所讲的都是我们的数据 用柱状图表示这些分量值的分布 这个想法就是一定有某种结构 但我们想要的 是找到一个模型去抓取这个聚类的结构 并且去做我们之前描述的"软分配" [背景音乐] 翻译: RyukaSuu |审阅: 19waa Coursera Global Translator Community