無論你在調超參數，或嘗試不同演算法或是嘗試不同的選項來打造你的機器學習系統如果能有單一數字的衡量指標，讓你很快看出新的嘗試比之前好還是壞你的進度就能飛快無比。所以，團隊要開始一個機器學習的計畫，我常建議為你的問題設定好一個「單一數字的衡量指標」 (single real number evaluation metric) 讓我們看一個例子你曾聽我說過，運用機器學習是很需要經驗的過程時常我們有點子，寫程式，跑實驗，觀察表現然後拿實驗的結果來修正我們的點子然後你不斷在這輪迴中持續改善那麼以貓貓辨認器為例，你先前做了分類器 A 然後改了超參數、訓練資料或其他東西你現在訓練了一個分類器 B 一個合理評估分類器成效的方法，是觀察準確率和查全率 (precision 和 recall) 準確率和查全率的細節不大重要 — 以這個例子來說。不過簡單說，準確率 (precision) 的定義是你的分類器說是貓的圖片中有百分之幾是真的貓？所以如果分類器 A 有 95% 準確率，代表當 A 說某個東西是貓，有 95% 的機會那真的是貓而查全率 (recall) 是，拿所有是貓的照片你的分類器有百分之幾的機會能正確認出來？有多少真正的貓能被正確辨認出？所以如果分類器 A 有 90% 的查全率，代表開發集所有貓的圖片裡分類器 A 能查出全部的 90%。不用擔心準確率和查全率的定義其實，你常常需要在準確率和查全率之間取捨而你兩者都在乎當分類器說是貓你想要他真的是貓但是對於所有貓的圖片你也想要一大部分是貓所以可能合理的評估是用分類器的準確率和查全率同時用 precision 和 recall 來衡量的問題是如果分類器 A 查全率比較高，但是分類器 B 準確率比較高，你會不確定哪個好而如果你實驗很多想法、很多超參數你不只試兩個分類器可能是十來個分類器，而你想快快挑"最好"的以繼續後面的步驟如果用了兩個衡量指標會很難二選一，或是十個中挑最好的。所以我建議，與其於用兩個數字：「準確率」和「查全率」來挑選分類器你必須找一個新的衡量指標，結合兩者在機器學習文獻，結合準確率和查全率的標準作法叫做「F1 分數」 F1 分數的細節不重要，粗略說你可看作是準確率 P 和查全率 R 的平均從公式看，F1 分數定義是 2 除以 (1/P + 1/R) 數學上這叫調和平均，準確率 P 和查全率 R 的調和平均非正式來說你可以想成是他們的某種平均只不過不是算術平均，而是調和平均，用這個公式算出對兩者的取捨會有些優點不過在這例子你可以一眼看出分類器 A 的 F1 分數比較好假設用 F1 分數來綜合準確率和查全率很合理，那你很快就能選擇 A 而非 B 所以我發現對很多機器學習的團隊，能有好的開發集讓你測量準確/查全率，再加上單一數字的衡量指標有時我會叫單一實數的衡量指標這能讓你很快知道分類器 A 好還是 B 好因此，有開發集和單一指標這通常能加快腳步讓改進演算法的這種迭代過程更快讓我們看另一個例子假設你為四個地區的愛貓者做一個貓貓 app 美國、中國、印度和其他地方假設你有兩個分類器，在這四個地區的資料分別有不同的錯誤率例如演算法 A 對美國使用者上傳的照片有 3% 的錯誤率你想掌握這些分類器在每個不同地區的成效，這很合理然而想追蹤四個數字，還想快速決定演算法 A 還是 B 比較好，這很困難如果你在測試很多個分類器看著這堆數字做選擇，這真的很難以這個例子我會建議，除了追蹤四個地區的表現以外，也算他們的平均假設把四個錯誤率平均是合理的單一實數指標那麼藉由算出平均你能很快發現方法 C 的平均錯誤率最低所以我們可能選這一個繼續下去選一個演算法，從這繼續改進。機器學習的流程通常是，你有個點子，你實作，試試看，然後你想知道這點子有沒有用我們在這部影片看到，有單一數字的衡量指標在做出各種決定時，能增加你或你團隊的效率不過還沒完我們尚未提到如何有效設定衡量指標在下一個影片中我想分享怎麼去設「優化指標」和「滿足指標」來看看下一部影片吧