在上一节视频中我们学习了为什么开发集和测试集应该具有相同的分布但这些数据集应该有多大呢建立开发集和测试集的方式随着深度学习时代的到来而发生着变化让我们来看一些最佳实践你也许听说过机器学习中的一条经验法则那就是将你拥有的所有数据按照70/30的比例分割成训练集和测试集如果需要建立训练集开发集和测试集可以将60%的数据作为训练集 20%作为开发集 20%作为测试集在早期的机器学习时代这曾经是非常合理的做法尤其是在数据规模不大的时候如果你总共只有几百个样例使用70/30或60/20/20的经验法则是非常合理的如果你有几千个样例或者上万个样例这些比例也是合理的但是在现代机器学习中我们往往需要处理更大量的数据假如你有100万个训练样例那么一种合理的做法是使用98%的数据作为训练集 1%作为开发集 1%作为测试集这里我用D和T分别表示开发(Dev)和测试(Test)集如果你有一百万个样例那么其中的1%就已经有 1万个样例了这对开发集或测试集来说已经足够了在现代的深度学习中我们拥有更大量的数据因此使用远小于20%或30%的数据作为开发集或测试集是非常合理的而且因为深度学习算法极度需要数据在拥有大量数据的问题中训练集会占有更高的比例那么测试集应该多大呢测试集的作用是在系统开发完成后帮我们评估最终系统的性能因此测试集的大小只要足够能保证对系统整体性能评估的高置信度即可因此除非你需要对最终系统性能有非常精确的测量否则你的测试集并不需要上百万个样例或许你认为1万个样例就可以提供足够的置信度来评估性能或者也可能需要10万个或更多才够这个数目可能远小于总数据量的30% 这取决于你所拥有的总数据量在某些应用场景中可能你并不需要对最终系统整体性能的评估具有很高的置信度也许你只需要训练集和开发集那么我认为没有测试集也是可以的事实上有时候人们说他们划分了训练集和测试集但实际上却是在测试集上进行迭代因此并不存在测试集他们只是划分了训练集和开发集没有测试集如果在这个数据集上进行调优那么将这个所谓的测试集称为开发集会更加合适不过我认为在机器学习的历史中并不是每个人都能区分清楚有时候所谓的测试集实际上是开发集但如果我们只关心有用于训练的数据和用于调优的数据然后直接上线最终的系统而不太关心它的实际性能我认为也可以只使用训练集和开发集而不使用测试集这听起来有点反常我绝对不是在建议大家在开发系统时舍弃测试集我觉得有一个单独的测试集会更安心你可以在上线前使用测试集
得到对系统性能的无偏估计但是如果你有一个很大的开发集你相信不会对开发集过拟合得太厉害那么只使用训练集和开发集也不是完全不合理不过我一般不建议这样做总的来说在大数据时代我认为传统的70/30法则已经不再适用了现在的趋势是使用更多数据作为训练集使用较少的数据作为开发集和测试集尤其是当你的数据集很大的时候经验法则是确保开发集的大小足以达到其目的也就是帮我们评估不同的想法让我们能更好地从A或B中做出选择而测试集的目的是对最终的分类器进行评估你只需要让测试集的大小足以满足这一目的即可这可能远小于总数据量的30% 我希望以上内容能给你一些指导和建议帮你在深度学习时代建立开发集和测试集接下来我们有的时候会在解决一个机器学习的问题的中途想要更改你的评价指标或者更改你的开发集和测试集让我们讨论一下什么时候需要这么做