在上一部影片你看到了開發集和測試集必須來自相同的分布但，該取多少資料呢？關於開發/測試集設置的準則在深度學習的年代已有所變讓我們看看實務上最好的作法你可能聽過機器學習的某個法則：把你所有的資料分成 70%, 30% 變成訓練和測試集或者把訓練/開發/測試集設成你可能會用 60% 做訓練、20% 開發、20% 測試在機器學習的早期這是相當合理的特別是當時資料數量還很少如果你總共有一百筆資料這種 70/30 或 60/20/20 準則很合理如果你有一千筆或者有一萬筆資料這種慣例也不會太奇怪但在現今的年代我們已經習慣用更多的資料假設你有一百萬筆的資料這樣分資料會更合理：你把 98% 當成訓練集 1% 來開發，1% 來測試我用 D 和 T 代表開發集 (dev) 和測試集 (test) 因為如果有一百萬筆資料那百分之一就是一萬筆資料，這用來開發/測試已經足夠了因此，在現今深度學習的年代，資料時常超大用其中遠小於 20 或 30% 的資料來當作開發或測試，這也很合理因為深度學習演算法需要很大量的資料，我發現那些需要大量資料的問題其資料有很大一部份都用在訓練上。那麼，測試集呢？還記得測試集的目的在於當你的系統開發完畢測試集可以評量最終的系統有多好所以準則是，讓你的測試集夠大到足以評估出讓人信服的成效因此，除非你必須知道非常準確的系統成效否則你大概不需要百萬等級的測試集或許對於你的應用程式，一萬筆資料就能讓你有信心知道成效抑或是十萬筆之類的，只要夠用就好這可能會比你整個資料的 30% 還少看你有多少資料。在某些應用你可能不需要對最終系統的成效有很高的信心也許你只需要訓練和開發集我覺得沒有測試集應該也ok 實際上，有時碰到的情況是當有人在講 "train-test splits" (分成訓練/測試)，可是他們真正在做的是對測試集反覆測試這樣並不叫測試集其實這樣是 "train-dev split" (分成訓練/開發)，沒有測試集如果你拿這個來調整系統開發集也好、測試集也好 — 其實最好稱之為「開發集」。雖然我想，以前做機器學習的人不是所有人對名稱都很講究會把這樣的情況稱之為開發集。不過如果你只想要訓練些資料拿些資料來調整系統然後就想要推出你的產品而並不在乎最終效果如何那麼，這樣我覺得稱之「訓練/開發」並提醒說沒有「測試」資料，這樣比較恰當。這會很奇怪嗎？我絕對不是建議不要用測試集。當我在做系統，有單獨的測試集我會比較安心在推出產品前，可以拿它得到比較公正的估計不過，如果你的開發集很大你覺得你不會太 overfit (過適) 你的開發集或許只有訓練/開發集也不會不合理雖然我通常不會建議這樣。總結一下，在大數據的時代我認為 70/30 這種舊的經驗已經不適用了趨勢是使用更多的資料來訓練；較少的資料當開發/測試特別是你的資料集非常大的時候準則現在是，讓開發資料多到足以達成目的即可：能幫助你評估各種想法，挑選最好的。而測試資料的目的是：對最終產出的分類器做評量測試集的大小只要能達到這目的即可而這可能會比 30% 還要來的少。那麼，我希望這能給你一些指引、建議在深度學習的年代來準備你的開發和測試集。接下來：其實有時候在解機器學習的過程中你可能會想要改變你的衡量指標或是更改開發和測試集且讓我們談談什麼時候會想這樣做