[背景音乐] 翻译: RyukaSuu |审阅: 19waa Coursera Global Translator Community 好的 以上是检索文件的其中一种方法 只需要收集所有的文章 快速浏览它们 并且找出最符合我们标准的那一个 但是我们还有可能对其他的问题感兴趣 比如说对相关联的文件进行聚类 你可能有一堆关于体育或者世界新闻或者其他什么的文章 而如果我们能用这种方法来构建我们的语料库 那当有人读到一篇关于体育的文章时 我们就可以迅速查找所有其它关于体育的文章 而不需要翻遍语料库里所有的文章 然而现在的挑战在于 不是所有的文章都已经被标记好 不像读纽约时报那样 你看到一篇文章 就已经有人告诉你 这是一篇教育类的文章 好的 现在我们只有一些文章和我们打算做的分析 或者我们打算找到这些文章的潜在分类方法 好的 所以我们的目标是对这些相关文章进行分组或者聚类 像我之前讲的那样 我们可以把一组文章描述为体育类 而把另一组文章定义为世界新闻类 就目前来说 我们假定已经有人给我们提供了标签 也就是说 有人通读了每一篇文章 或者至少浏览了我们语料库中的大部分文章 并且给他们一一标上标签 然后说 好的 在这些文章里 这一部分全部是关于体育的 那这一部分呢 这些是关于世界新闻的 而这些是娱乐版 还有这些是科学版 所以我们有一组被标记好的文章 那么 在这种情况下 当我们拿出我们的待查询的文章 并打算把它放入一个分类中的时候 这根本上不过是一个多元分类问题 因为问题就是 现在我有一个待处理的文章 我不知道改把它标记成什么 然后我有一堆标记好的文件 我有一系列的标签 像世界新闻啦 科学啦 体育啦 娱乐啦 还有科技啦 而我不过是想看看这篇文章属于哪个分类 好吗 那么现在问题来了 这真的就只是一个多元分类问题 所以如果是这种情况的话 我们面对的其实是一例监督学习问题 [背景音乐] 翻译: RyukaSuu |审阅: 19waa Coursera Global Translator Community