要把你關心的所有事情變成單一的指標這並不是容易的事在這種情況，我覺得有用的作法是設定「滿足指標」和「優化指標」 (satisficing metrics; optimizing metric) 讓我來解釋一下假設你決定要關注貓貓分類器的精準度有可能是 F1 分數，或是其他計算的方法不過再假設，除了精準度，你也在乎執行時間也就是分類一張圖片要多久：A 要 80 毫秒、 B 要 95 毫秒、 C 要 1500 毫秒分一張圖片要 1.5 秒。有種可能的作法，是把精準度和執行時間結合起來，變單一指標例如成本是精準度 - 0.5 x 執行時間但這公式不大自然把精準度和執行時間接在一起看成兩者的加權總和。那麼，你可以有不同的作法：你想要的分類器可能是精準度要最大，而執行時間 — 也就是分類一張圖片的時間要小於等於 100 毫秒。在這個例子，我們稱精準度是一種「優化指標」，因為你要最大化精準度你要讓精準度盡可能地優而我們稱這裡的執行時間為「滿足指標」意思是夠好就好只要比 100 毫秒快就好，就滿足了不會太在乎快多少這方法比較合理，可以在精準度和時間兩者間取捨或是同時考慮只要執行時間比 100 毫秒快使用者可能不會太在意需要跑 100 或是 50 毫秒或更快。藉由定好「優化指標」和「滿足指標」怎麼挑"最好"的分類器就一清二楚在這裡我們會挑分類器 B，因為所有比 100 毫秒快的分類器裡面，B 的精準度最高一般來說，如果有 N 個衡量指標是你在意的合理的作法是挑其中一個來優化你盡全力在那一個指標作到最好剩下的 N-1 個當作滿足指標只要他們達標過了某個門檻，例如比 100 毫秒快只要他們過了某些門檻就好你並不在乎比門檻好多少不過，他們一定要達到門檻再舉一個例子假設你在做一個系統，要偵測喚醒詞也稱為觸發詞這邊在講用語音控制的設備例如 Amazon Echo，說聲 "Alexa" 就啟動或者一些 Google 設備，你要說 "OK Google" 或是 Apple 的設備，你說 "Hey Siri" 來喚醒或是百度的設備，你會說「你好，百度」 — 如果你想看中文怎麼寫，這是你好百度這一類的就是喚醒詞你用聲音來控制設備啟動他們，讓他們接下來聽你的指令 — 這四個字是「你好百度」的中文所以，你會很關心系統辨認喚醒詞的準確度當有人講了這些關鍵字你的設備會啟動的機率多高？你也會在意錯誤啟動的次數也就是並沒人說關鍵字但他自己啟動的機會多高？在這例子，要同時考慮這兩個指標一個合理的方法是，讓準確度最大當有人說出喚醒詞要最大化啟動設備的機會在這前提下 24小時內最多只能有一次的誤啟動可以嗎？所以沒人對設備講話的時候一天最多只會自己起來一次在這個例子，準確度是「優化」指標而每24小時誤啟動的次數是「滿足」指標只要24小時內最多只有一次錯誤啟動，你就滿足了總結一下，如果你關心很多指標把其中一個設為「優化指標」(optimizing) 你要盡可能把它做好還有一到多個「滿足指標」(satisficing) 只要過門檻就滿意。這樣的話就有幾乎自動的方法從多個分類器中選出一個 "最好的" 那麼，這些衡量指標必須要在訓練集、開發集、或測試集上評估計算因此你還要做一件事：設置訓練集、開發集、和測試集在下部影片，我想分享一些準則如何設置訓練、開發、和測試資料讓我們進入下一段影片