很多團隊都非常興奮於 能夠在某些分類辨識的任務上超越人類 若你想親自嘗試, 且讓我們談談你將會看到的光景 我們之前談到,當你逼近甚至超越人類時 機器學習的進展會變得更艱難 讓我們再以一個例子解釋原因 假設你有一個問題,若有一群人討論、辯論 能達到 0.5% 錯誤率 只有一個人的話,1% 錯誤 而你演算法的錯誤率,在訓練上是 0.6%、開發上 0.8% 那麼這樣的話 可避免的偏差是多少呢? 這比較好回答, Bayes error 的估計值是 0.5% 所以要算可避免的偏差 — 你不會用這邊的 1% 做基準 你會用這一個差距 所以可避免的偏差的估計至少是 0.1%,變異則是 0.2% 所以和偏差相比,或許要花更多的心力在減少變異 那現在舉個難一點的例子: 一群人和一個人的表現依舊 但演算法的訓練錯誤達到 0.3% 開發錯誤達到 0.4% 這樣的話,可避免的偏差是多少? 這實際上很難回答 你的訓練錯誤是 0.3% 是表示你 overfit 了 0.2% 嗎? 還是 Bayes error 其實是 0.1% 呢? 或者 Bayes error 是 0.2%? 還是 Bayes error 0.3% 呢? 你不大清楚 可是以這個例子給的資訊來說 實際上你沒有足夠的資訊 來分辨你該減少你演算法的偏差還是變異 所以你的進展就會趨緩 除此之外,如果你已經 比一群人在那邊討論辯論後還要厲害 這樣的話,要仰賴人類的直覺 來想出改進演算法的方向 也變得更加困難 在這個例子中 只要你超越了 0.5% 這個門檻 要再進步的手段、選項 就變得不大明朗了 並不是說你無法再進步 或許你還是能夠做出顯著的改進 不過你本來有些工具 以前能給你明確的策略,現在就不管用了 那麼呢,機器學習中有很多的問題 已經比人類的表現還厲害的多 例如,我覺得 數位廣告,估計某個人有多少機率會去點擊 演算法做的應該會比任何一個人類還強 或者建議商品 推薦你一些電影或書 我覺得現在的網站推薦的 能夠比你的好友推的還厲害 或者物流,預測你從A點到B點要開多久 或是預測貨車從A到B要花多久時間 抑或是,預測某個人會不會償還貸款 所以你該不該批准他的貸款 我覺得這邊的問題,在現在的 機器學習能做的比單一個人還要好太多 注意到這四個例子的共通點 全部都是從結構化的資料中學習出來 你可能擁有使用者點擊的資料庫 購買歷史的資料庫 從A到B花多久的資料庫 過去貸款的申請和結果的資料庫 這些問題和自然感官無關 這些並不是電腦視覺、 或語音辨識、自然語言處理的問題 人類對於自然感知的問題很在行 對於電腦來說 有可能、但很難 在自然感官的問題上表現比人好 最後呢,對於這些問題 有些團隊擁有其大量相關的資料 例如說,這四個領域的系統看過的資料 可能比所有人類能看的資料還多 所以相較之下 要讓電腦超越人類會比較容易 因為電腦擁有超級多的資料可以觀察 電腦比人類更能發掘其中的模式 除了這些問題以外 現在已有語音辨識的系統超越人類水準 電腦視覺領域也有 一些影像辨識的任務 電腦已經比人還強了 不過因為人類很擅長這種感知的任務 所以電腦達到這地步很困難 還有一些醫療相關的任務 例如讀心電圖、診斷皮膚癌 或者少部份的影像診斷學 在這邊電腦越來越厲害 可能超越了單一個人的水準。 我覺得最近深度學習 最讓人興奮的進展是 就算是這樣的任務,我們在某些情況也能超越人類 — 雖然一路上走來艱辛 因為人類擅長這一類感知的任務 那麼要超越人類表現,往往並不容易 可是,有了足夠的資料,很多深度學習系統 已經在監督式的問題上超越了人類 所以如果你在做的應用也是這一類的話 我希望有一天,你也能夠 做出深度學習的系統,超越人類