[背景音乐] 翻译: RyukaSuu |审阅: 19waa Coursera Global Translator Community 现在开始对课程内容进行详细介绍 在课程概况部分,我们谈到 这门课程涉及四个模块 让我们进入每个模块 概括的介绍下每个模块都包括什么 在第一个模块, 我们探讨文档检索任务 比如,某人正在读一些文章 而我们想搜索其他文章 看看能否找到这个人感兴趣的相似文章 要实现这个,我们要介绍最近邻搜索 这个方法要求我们计算待检索文章和 其他每个文章之间的距离 然后找到距离最近的 也就是距离最小的那个文章 关于最近邻搜索,有几个关键点 一个是如何表现一个文章 另一个是如何衡量两个文章的相似性 或者说他们之间的距离? 这两者,怎样表现及怎样计算距离 将直接影响到我们认为谁是最近邻。 针对这些关键点,我们将讨论可能的选择并且 在不同选择之间的权衡 然后我们讨论怎样将最近邻搜索扩展到 在读取大数据集的时候 做这样的计算是非常有用的 我们对暴力算法--针对数据集中的 两两点进行距离计算 非常的耗费计算资源 即便是一次搜索 所以,我们要采用一种非常酷的数据结构 称作KD树 这种结构允许,在最近邻搜索的前提下,裁剪掉 最近邻搜索空间中的大量的点 在绝大多数情况下都如此,当然也有不奏效的情况。 但是,虽然是一种很酷的方法,但是高维空间中却不十分有效 所以,如果你的文档包括大量的词汇 而且,你所采用的文档表现也是基于 词汇量的大小 KD树好像不再是一个不错选择用在 最近邻搜索上 基于此,我们将介绍一种近似最近邻搜索的方法 这种方法被叫做局部敏感哈希 因为在本课程中,我们要传达的一个概念就是 有大量的应用,其实不是非常关心精确的 最近邻 (关心的)可能是一个靠近最近邻的点 只要在某些场景我们可以接受这种近似 我们就可以更加有效的实现它 在第二个模块中,我们将讨论聚类 这儿,我们的关注点是如何把相关的文章进行分类, 而所依据的则仅是文章的内容而已 聚类是一种典型的非监督学习例子 我们要学习的 第一个用于聚类的算法是K均值 K均值算法的目标是 最小化每个点到每类中心点之间距离的平方和 可以把这个过程认为是对数据进行分块 我们把数据点“硬指派”到某一具体分类中 这是一个非监督算法的例子 我们只是依据输入本身 在没有外部标记的情况下学习数据的内在结构 数据集中的每个点,我们都不知道它们的类别标记 在模块二的最后,我们将要扩展 K均值到大规模数据集,使用的则是称作MapReduce的东西 MapReduce是一个框架 用来在许多机器上进行并行计算 我们将讨论可被用在各种场景下的 通用MapReduce框架, 也将讨论其在K均值上的具体应用 在模块三,我们要讨论概率模型 用来做聚类 这儿我们的目的是获取 我们聚类结果的不确定性 举例来说,有这么一个文章,不是很确定 是属于科学还是世界新闻? 实际上我们并没有这些标签,所以 它是属于内容是关于科学的那组文章? 还是属于内容是关于世界新闻那组文章, 在没有标签的情况下? 总有些文章,不是那么非常确定 要怎样分类 (这种情况下)我们希望算法能提供我们不确定性, 而不是仅仅把文章“硬指派”到某一类别中 这种类型的输出,可以帮助我们了解 用户对不同主题的偏好 因为一旦我们知道用户对文章的反馈比如喜欢 或者不喜欢 并且我们知道这个文章隶属于某类文章的程度 我们可以把两类信息进行整合以便 获得更好的描述 (该描述)基于用户的反馈, 对用户在学得的某类主题上偏好的影响 我们用以聚类的概率模型 叫做混合模型 这时当我们考虑把点指派到类别中时 不是像K均值那样,仅考虑到类别的中心 同时考虑类别的形状 也跟K均值不同, 我们不是对点做“硬指派” 相反,我们做的是“软指派” 数据点有针对不同聚类的权重 权重基于将点指派到不同类别的不确定性 得到 所以这次的目标是,针对一系列未标记的点 比如图中的这些灰色点,将其转换成彩色点 这次不是硬分配一种颜色, 而是使用整个色域 表示对点的分配及它们分配到该类的不确定性 比如,我们来看介于蓝色 和绿色之间的这些点 它们有介于这两种颜色之间的一些色彩 这表明存在不确定性在 是否把这些点分配到蓝色还是绿色类别中 绿色和紫色之间也存在类似情况 我们将要谈到一种算法 该算法能对点进行软指派 被称作期望最大算法或者简称EM算法 最后,在第四个模块,我们要描述一种更加精妙的 概率模型来分析文档 这个模型被叫做潜在狄利克雷分布(Latent Dirichlet Allocation)或者LDA 为了进一步阐释LDA的思想 我们来看这样一篇文章 我们看到,这篇文章包括一些关于科学的词汇 基于此,我们或许会把这篇文章和 其他科学有关的文章分类在一起 但是这篇文章同时也包含技术相关的词汇 或许它更应该跟技术文章放到一起 但实际上,这篇文章是既有关科学也有关技术 这就是LDA能赋予我们的能力 它提供我们一种所谓的成分混合,可以使一篇文章 同时属于多种不同主题类别 不但指出了文章和主题的关联性, LDA提供我们的,还有不同主题包含在文章中的比例 LDA模型中的每个主题被描述为 单词相对词汇的频率分布 所以我们会看到科学主题中 和科学关联的词汇的权重大 科技主题中那些跟科技相关的词汇权重较大 同理对体育类也是一样 不可思议的是,我们完完全全是以一种 非监督的方式来完成这一切 我们只是提供文章中包括的单词 文章来源于所有的语料库 从语料库的文章中,我们拿到的是一组一组的单词 仅此而已 我们要获得不同主题的词汇的频率分布 还有具体到某一文章,不同主题体现的比例 我们将详细介绍怎样获得 这些信息 这同时也是另外一种发现数据内在结构的做法, 并且是以一种非监督的方式 [背景音乐] 翻译: RyukaSuu |审阅: 19waa Coursera Global Translator Community