深度学习算法都希望有大量的训练数据要使它运转在最佳状态训练集中要有足量已标记训练数据这导致很多团队将能找到的任何数据都塞进训练集
只为有更多的训练数据即使有些甚至很多这种数据来自于与开发集和测试集不同的分布因此在深度学习时代
越来越多的团队正在使用的训练数据并非来自
与开发集和测试集相同的分布针对这种情况这里有一些需要了解的微妙之处
和一些最好的实践方法让我们一起来看看让我们一起来看看假设你正在做一个移动应用用户将从他们的手机上传图片你想要识别这些图片是不是猫的图片那么你现在有2个数据源一个是你真正关心的数据分布来自于移动应用
通常拍摄和构图都不怎么专业甚至可能是糊的
因为他们来自业余用户另一个数据源是
你可以抓取网页然后下载大量的在这个例子中是说你可以下载大量的构图专业的
分辨率高的专业拍摄的猫的图片假设你的移动应用还没有很多用户也许你有10,000张
从移动应用上传的照片但是通过网页抓取
你能下载海量的猫的图片也许你有200,000张
从网络下载的猫的图片但是你真正期待的是最终系统处理移动应用上传的
图片的分布的表现因为最终你的用户
将会上传如图右所示的图片你需要你的分类器
在这些图片上表现足够好但是现在你有些为难因为你的数据集比较小
只有10,000个样例来自这个分布而大得多的数据集来自于另外的分布它的图片与你的目标分布
看上去并不一样所以你不希望只用10,000个图片因为这意味着一个较小的数据集使用这总共200,000个图片
会对这个问题有帮助两难的是200,000个图片
并非来自你的目标分布那么你能怎么做呢？这里有个方案你可以将这些数据集放在一起这样就有了210,000个图片然后将这210,000个图片随机混合得到训练/开发/测试集为讨论方便假设你的开发集和测试集各包含2,500个样例那么训练集则包含205,000个样例这样的数据分配有其优点和缺点优点是这样一来你的训练/开发/测试集都来自于同一分布易于管理而缺点一个巨大的缺点是仔细看看你的开发集
它有2,500个样例但是大部分来自网页图片的分布而不是你真正关心的
来自移动应用图片的分布也就是说210,000个样例中的200,000个我将200,000简写为200k
210,000简写为210k 来自于网页那么2,500个样例中来自于网页的数量的期望值是2381 这是期望确切的数字将取决于随机混合的结果但是平均只有119个样例
来自于移动应用上传请记住设置开发集的目的是告诉你的团队该往哪里瞄准现在你正在瞄准的目标正在花费大量的时间优化的是网页图片的分布
而这其实不是你想要的所以我建议不要采用方案一因为它设置的开发集使你的团队致力于优化一个与你实际关心的目标
并不相同的数据分布与其这样我建议你改用另一个方案假设训练集仍然包含205,000个图片所有来源于网络的
200,000个图片都放进训练集如果你想还可以加入
来自于移动应用的5,000个图片你的开发集和测试集则不必依照这个比例你的开发集和测试集将包含
所有的移动应用图片所以训练集包含200,000个网络图片和5,000个移动应用图片开发集包含2,500个移动应用图片测试集也包含2,500个移动应用图片按照这种方式划分训练/开发/测试集其优点是你瞄准的是正确的目标你在向你的团队表明
我的开发集数据来自于移动应用而这正是你真正关心的图片的分布让我们来建立一个机器学习系统它在移动应用图片分布的表现的确很好当然其缺点就是你的训练集的分布不同于您的开发和测试集分布但事实证明这样划分训练/开发/测试集长期来说性能更好我们稍后将讨论一些具体的技术来处理训练集与开发/测试集
出自不同分布的问题我们来看另一个例子假设你正在打造一个全新的产品一款语音激活的后视镜这是中国的一款真实产品它正在进入其他国家的市场
但是你也可以自己做一个来把这个小东西换掉这样你就可以跟后视镜说话了只要对它说亲爱的后视镜请帮我导航到最近的加油站
它就会帮你导航所以这是一个真实的产品现在假设你想给自己的国家也开发一个那么你要怎样取得数据来为这款产品训练语音识别系统呢也许你已经在语音识别领域
工作很长时间了你有大量来自其他语音识别应用的数据只是没有来自语音识别后视镜的数据那么划分训练集/开发集/测试集
的方法是这样的对于训练集你可以使用所有你在过去的语音识别工作中
所积累的数据比如你多年来从各种语音识别
数据供应商处购买的数据如今你的确可以从供应商那里
购买形如(x,y)的数据其中x是音频 y是文字也许你有在智能语音激活扬声器
领域的工作经验所以有一些这方面的数据也许你有语音激活键盘
或者其他类似的工作经历为方便讨论假设你有500,000个从这些来源收集的话语(utterance)片段而你的开发/测试集
可能是小得多的数据集他们来自于语音激活后视镜因为用户要求导航查询或试图找到去各种地方的方向这个数据集将包含
更多的街道地址对吗请帮我导航到这个街道地址或请帮我导航到这个加油站所以这个数据分布和左边的有很大区别但是这才是你关心的数据
因为这才是你需要你的产品能处理好的数据
所以应该由它来组成开发和测试集那么在这个例子中你要做的是将训练集设为左边的
500,000个话语而开发集和测试集简写为D和T 分别包含大约10,000个话语来自语音激活后视镜的真实话语或者如果你认为
你不需要把所有来自于语音激活后视镜的
全部20,000个语音样例都放到开发/测试集
也可以分出一半来放到训练集那么训练集有510,000个话语样例包括那边的500,000个
和来自后视镜的10,000个而开发/测试集分别包含
5,000个话语样例因此 20,000个话语
也许训练集分到10k 开发集和测试集分别分到5k 这是另一种将你的数据分配到训练集开发集和测试集的合理方案而且比起单纯的使用
语音激活后视镜提供的数据它提供大得多的训练集
有大于500k的话语样例在这节你看到一系列例子如果允许训练集和开发/测试集的数据
来自不同的分布那么你将拥有一个大得多的训练集这些例子中
它能使你的算法表现得更好现在你可能会问一个问题
是否应该总是使用所有的数据答案是微妙的它并不总是肯定的我们将在下一节看到一些反例 GTC字幕组翻译