[背景音乐] 翻译: RyukaSuu |审阅: 19waa Coursera Global Translator Community 欢迎来到聚类和检索课程 机器学习专项课中的一节 正如我们所见 聚类和检索有广泛的应用 和实用工具 这些工具应用在 基于你当前的浏览的产品 发现与之相似的产品 基于相关的医疗条件 发现病人的群组 在基础的课程里 我们简单的介绍了关于聚类和检索的相关概念 但是在这个课程里 我们将深入这些模型 优化算法上和算法 这门课是机器学习专项课程的一部分 专项课程里的各门课程 应当以指定的顺序依次学习 虽然你可以独立的参加这个课程 但为了得到我们期望的学习体验 我们强烈建议你按顺序学完整个专项课程 需要特别指出的是 在第一门基础课程中 我们概述了 专项课程中将要深入学习内容的基本概念 然后 在后面的回归和分类等课程里 我们深入介绍了具体细节 在这两个课程中 我们学习了基本的机器学习的概念 这些概念将会在这门聚类和检索课程中被用到 稍后 在本节的课程总体简介里 我们会列一张我们期待你已经掌握的概念的列表 但是首先 我们先概括一下在这门课程将要学习内容 记得在上第一门的基础课程时 我们说过 机器学习就是关于从数据中提取"智慧" 在这个课程的第一部分 我们要去学习的机器学习方法 是用于检索任务的查找最近邻的方法 就最近邻搜索算法而言 算法的输入时查询点的一些"特征" 还有关于某一具体数据集的所有其他数据点的特征 算法输出就是查询点的"最近邻" 即是 在整个数据集中和查询点最相似的一个数据点 所以 我们需要在 最近邻算法中去遍历其他所有的数据点 并计算出查询点和其他数据点 的相似度或者 或者说距离 然后返回最接近的那个数据点 举个例子 这个例子将会在 这门课程中一直出现 想象一下 这里有一大堆文档 某人正在阅读其中一篇文档 比方说就是这篇灰色的文档 假设用户用户喜欢这篇文章 我们希望检索到一篇类似的文档 他们可能也会喜欢 这个检索相似文章的任务 就是寻找"最近邻" 不过,我们可能也愿意检索出多个"最近邻" 也就是将多篇类似文档展示给用户 我们要遍历所有其他文档 以实现这个最近邻搜索 并检索到这些"最近邻" 这些都是基于 文档本身的内容 也就是仅基于"数据点"本身的特征 基于检索的应用到处可见 比如 我们希望在一堆图片中找 一组相似的图片 或者 我们在买某件物品的时候 我们可能希望得到一组 我们可以考虑购买的其他类似的物品 或者就像刚才提到的 当我们在读一篇文章的时候 我们很可能愿意去读同一主题的相关文章 类似的应用也会出现在流媒体领域 比如听歌 看电影 或是看电视节目的时候 你可能希望被推荐一些你感兴趣的 歌曲 电影 或电视节目 再或者 你是某个社交网络的用户 基于你的用户特征 你可能会期待他们推荐给你一些你可能愿意建立联系的人 总之 这种检索相似物的方法是十分 是非常强有力的工具 通过这个课程我们将讨论多种实现这种搜索的 方法 而在课程的第二部分 我们将会去学习 聚类 另外一种常用的机器学习的方法 而这里 算法的输入是相关于数据集内每一个 数据点的所有特征 输出即为对应所有数据点的 聚类标签 聚类方法的目标是 去发现这些 不相关的数据点集合 当我们讲聚类的时候 我们会看 其中一个实例将会和文档检索任务类似 这个任务中我们有一个完整的文本语料库 不过这里不是简单地 最邻近搜索任务 我们的目标是找到输入空间的结构化的表示方法 所以 可以基于资料库里文章的主题 将资料库构建分组 就像我们谈及的检索任务 聚类任务也有着广泛的应用 比如我们在搜索任务中 我们想要的不只是 输入一张图像 然后 得到一组相关的图像 但我们所希望的是把相关图像库分组 使得各组内的图片都是相关图片 我们也有可能希望在Coursera上找到一群 和你类似的学习者 根据Coursera用户的特征以及他们在 Coursera上的行为记录 我们可以发现相关的用户 他们可能会有相似的兴趣 并且可以借此更好地给他们推荐课程 这个很简单的检索和聚类的方法 事实上 这对世界有着巨大的影响 但通常我们却认为它理所应当 你只是在APP或是其他设备上搜索一些东西 当然 你认为这当然能够根据你的查询 提供一系列与之相关的内容 或者 从我们看到的数据里 我们可以很容易找到 哪些是相关群体的人或哪些是相关事物 那么 这到底是怎样实现的 这就是这个课程要讲的 我们也会接触到如何去扩展这个算法 通过这门课程 像之前一样 我们将学习到 非常有用的机器学习的基本概念 比如 在这门课里 我们将讲到 无监督学习 并且 我们会涉及MapReduce框架 即利用并行计算实现算法的扩展 [背景音乐] 翻译: RyukaSuu |审阅: 19waa Coursera Global Translator Community