[背景音乐] 翻译: RyukaSuu |审阅: 19waa Coursera Global Translator Community 在这节课程中 我们说到了不同的机器学习的方法 和这些方法可能的应用 但是这节课仍然留下了 一些机器学习的挑战 我们现在就来讨论这些潜在的挑战 其中一个 就是 我们往往需要在很多模型中做出选择 举例来说, 当我们说到推荐系统的时候 我们会用到分类模型 我们提取了用户和产品的特征 并把它们放到分类器中 然后判断用户是否喜欢这个产品 而之后我们学习到的因式分解 我们可以从用户和产品中学习到特征 并用这些特征来给用户推荐产品 然后我们说到了把之前两个模型结合起来的特征矩阵的因式分解 如果我们想把一个任务潜在的模型全部列出来 这是一项非常宏大的任务 同时对实施者而言 也会变得复杂 在这么多潜在模型中 到底该选择哪个模型呢? 模型的选择仍然是机器学习中的一个开放性挑战 另一个挑战就是 我们如何显示出我们的数据 举个例子 我们之前说到了文档检索模型 我们如果用简单的文字计数 也说到了如何正交化向量 我们用到了TF IDF 来计算哪些是比较普遍用到的词语 然后去强调这些词语在文档里的重要性 事实上 tf-idf有很多变种 我在这里仅仅提供一些例子 你可以用到二元语法 或者三元语法 等等之类的 用来表示在文档中出现的词语 这是我们想要表示的有关于兴趣的数据 这仅仅只是一个文档 我们很可能会有图片 那么如何表示图片呢? 我们说了几种方法 我们会提到更多 但是也会有很多挑战 也许你有很多网络式的数据 比如说脸书(Facebook) 你可能会在不同大量的数据中 有着复杂的数据结构 我们想要用我们描述过的方法 所以我们表达数据的方式 会对我们 对数据进行推断有着重要的影响 这是一个很严重的问题 没办法选择正确的表达数据的方式 另一个面对的重要挑战是 机器学习如何处理多维度 事实上数据变得越来越多 这已经被媒体广泛的提到了 让我们描述一下可能遇到的情况 随着数据量的增加 我们有不同的社交网络平台 从更广泛的渠道获取数据 比如说分享你的图片 你的视屏 点评餐厅 和很多你以后会在网上做的 这让数据变得越来越多 很多人都在做这方面 数据的提供量快速增长 所以我们现在有很多新的数据源 另一个就是当我们在购买产品的时候 我们不在 仅仅 去一个商店 然后用纸笔记录下曾经买过的 现在我们有个亚马逊 有着巨大体量的网上超市 能收集不同产品的数据 和不同客户的的数据 还有每次购买 很多很多种类的数据 比这更多的是 我们现在有更多的可穿戴设备 这是我现在用的可穿戴设备 一个能监测我在做什么活动 我是否在晚上睡觉 我可以带着记录一切的眼镜 还有很多互联网之类的东西 能够把这些设备 和不同种类的信息连接起来 互相沟通 这是我们现在能够看到的运用的领域 和很多新的数据源 当然不局限于此 我还可以说到比如说医疗记录 当你去医生那 然后让他们写医嘱 病历 写到某个文件中 现在用的更多的是电子病历 这是新的沟通系统 我们有很多电子健康记录 这仅仅是一部分数据 能够解析并且用来创新医疗行业 所以说新的数据真的很让人兴奋 我们可以知道人们检查我们的身体 人们购买的习惯 如何交朋友 和每日日常活动 所以我们需要新的方法来运用分析这些种类的数据 并且对于某些有着独特结构数据进行分析 还有那些噪声结构 也是很具有挑战的问题 还有一个机器学习的重要挑战 就是如何处理大数据 当数据变得非常大的时候 我们会遇到 我们需要分析越来越复杂的数据 同时模型自身也会变得越来越大 越来越复杂 这样才能从那些数据中提取信息 我不知道你能否理解我想表达的意思 这些复杂的数据源和大量的数据 举个例子 我们说到聚类问题 之前提过的 记录大脑活动 这仅仅是一个简单例子 用来分析这种类型数据的模型 我们就不在这里展开了 知道这边有很多圆和箭头 意味着超级复杂 大量的数据模型 你可能考虑到 当数据越来越大 模型越来越大的时候 但这还好,因为同时处理器也变得越来越快 这只是问题的一部分 我们可以看到数据的增加量是以指数形式增加的 但是我们处理器的速度也随之增加 但是这种增加在10年前就停止了 我们可以看到 我们个人处理器的速度趋向了一个边际递减的区域 所以我们得想代替的方式 比较典型的是 处理器的收集 这是另一种结构 我们有着GPU 和多核CPU 还有这云计算 很多更新奇和更厉害的超级计算器 很好 这都是很有用的 或者说未来很有用的计算资源 问题是我们如何运用在机器学习里呢 我们有很多面临的挑战 一个就是如何 如何分配到不同的处理器中 然后能够以一种同步的方式进行计算 这非常有挑战性 第二个是如何把数据分配到不同的机器 我们所做的 能避免在单个机器上出现的问题 所以说这些使我们现在面临的挑战 很多有趣的研究也已经开始关注 问题 [背景音乐] 翻译: RyukaSuu |审阅: 19waa Coursera Global Translator Community