如果在深度學習背後的基本技術思維, 及神經網路背後的基本技術思維已經幾十年了為什麼它們只剛開始起飛在這段影片中, 讓我們看一些在這興起深度學習背後的主要動力, 因為我想這會幫助您的組織比較能遇見最好的機會來應用這些工具過去這幾年很多人問我 "Andrew, 為什麼深度學習突然作用得這麼好" 而每當我被問到這個問題我通常畫這個圖給他們假設我們畫一個圖, 在橫軸我們畫出一件任務的資料量然後, 在縱軸我們畫所有的學習演算法的表現您看到我們的垃圾郵件分類器或者我們的廣告點擊預測的正確度或者我們神經網路的正確度對於我們的自駕車找出其他車輛的位置實際上如果您畫傳統的學習演算法的表現像是支援向量機或者羅吉斯迴歸分析當成是一個資料量的函數您也許會得到一個曲線像這樣他們的表現會提高了一會兒當您添加更多的資料但一會兒過後, 表現就到了高原期這應該是一條水平線, 我沒畫得很好總是，好像它們不知道如何處理大量的資料我們的社群在過去20年也許對於很多的問題我們從有相對比較小量的資料到經常有相當大量的資料很多的資料來自於我們社群的電子化，而現在人類活動已經是數位領域我們花很多的時間在我們的電腦, 在網站, 在行動裝置, 在電子裝置上創建資料由於內建於手機的便宜照相機，加速度計所有在物聯網的感測器我們一直在蒐集更多更多的資料過去20年來很多的應用我們累積了很多多出來的資料原比傳統的學習演算法能夠有效的利用而在神經網路實際上如果您訓練一個小型的神經網路它的表現也許像這樣如果您訓練大一點的神經網路我們稱它為中型神經網路它的表現會更好一點如果我們訓練很大的神經網路那它的表現通常會越來越好所以觀察後一是如果您想用到最高水準的表現您需要兩種東西首先, 您需要能夠訓練足夠大的神經網路為了利用大的資料量第二, 您需要在 x 軸這裡您需要大量的資料所以我們通常說規模領導深度學習進步規模是指一是神經網路的大小意思是神經網路有很多的隱藏單元很多的參數很多的連結,二是資料的規模實際上在今天, 最可靠的方式之一來得到比較好的表現在神經網路通常是訓練大的神經網路或者丟更多的資料給它但這會到一個頂點,因為最終您耗盡了資料或者最終神經網路太大了需要訓練的時間太長但在深度學習的世界僅提高規模已經是用了我們很長的時間為了要讓這個圖增加一點技術上的精確度讓我再加一些東西我寫在 X 軸是資料量技術上來講,這是標籤資料而標籤資料指的是訓練例子我們有輸入 X 跟標籤 Y, 我想要介紹一點點我們將在這個課程中用到的符號我們將使用小寫的字母 m 來記為我們訓練集的大小所以訓練集大小的數量是小寫的 m, 這是在橫軸一些其他有關這個圖的細節在這個區域是小的訓練集這相對的演算法排名實際上不是那麼好定義所以如果您沒有很多的訓練集, 通常依賴您的技術來手工打造特徵決定表現所以這是很有可能的如果有人訓練 SVM 用心去手工打造特徵跟有人訓練即使大的神經網路也許在小的訓練集區域裡 SVM 做得更好所以在這個圖形的靠左邊區域相對的排名介於各演算法不是那麼好定義取決於您的技巧在手工打造特徵跟其他演算法的細節而只是在這個大量資料區域很大的訓練集很大的 m 值在右邊區域我們一致的看到深神經網路大勝其他的方法所以如果您的朋友問您為什麼神經網路起飛我會鼓勵您畫這個圖讓他們了解我會說在早期現代深度學習的興起是因為資料規模跟計算規模僅僅能夠訓練很大量的資料在 CPU 或者 GPU 上就能夠讓我們有很多的進展但是，越來越多，特別是在過去幾年我們已經看到巨大的演算法創新我也不想低估它們有趣的是很多演算法的創新是試著讓神經網路跑得更快舉一個具體的例子一個重大的突破在神經網路是從長得像這樣的S型函數轉換成這樣的 ReLU 函數我在之前得影片中簡單談過的, 長得像這樣如果您不知道這些我將談到的細節, 不用擔心但實際上使用S型函數的問題之一在機器學習是有些區域像這裡這個函數的斜率梯度將近為 0 所以學習變得非常慢因為當您建立梯度下降時, 這梯度為0時參數會改變得很慢學習也會很慢而當改變稱為神經網路的啟動函數用這個稱為 ReLU 或是線性整流函數 ReLU 這梯度為 1 對於所有正的輸入值所以梯度不太可能逐漸變0 而這裡的梯度, 在左邊這條線的斜率是0 但實際上僅僅從S型函數換成是 ReLU 函數已經使梯度下降演算法跑得更快所以這是一個例子,也許相對簡單的演算法創新最終, 對於演算法創新真的對計算非常有幫助實際上有很多的例子像這樣改變演算法因為他讓程式跑得更快這能讓我們訓練大一點的神經網路或者用合理的時間處理即使是在大的網路或者大的資料另一個理由是快速的計算對於常反覆訓練的神經網路過程是很重要的通常您有一個想法在神經網路架構而您建立您的想法在程式上建立您的想法然後讓您跑一個實驗告訴您您的神經網路做得如何看完結果後回頭改變一些您神經網路的細節然後您在這樣的圈子一遍又一遍當您的神經網路需要太長的時間訓練時就會需要花很長的時間來繞一圈這是很大的不同在於您的生產力去建立有效率的神經網路當您可以有一個想法試著看看它是否可行在10分鐘內或者最多一天內對比如果您訓練您的神經網路一個月, 有時是會發生的因為當您在10分鐘或是一天內得到結果您可以試很多想法而更能夠發現非常適合您應用的一個神經網路所以快速的計算已經幫助了加快了你可以得到實驗結果回來的速度而這非常幫助於神經網路的練習生跟深度學習的研究人員快速的反覆來更快的改進您的想法所有這些當然增強了整個深度學習研究社群到已經令人難以置信的每個月發明新的演算法所有這些已經是巨大的爆發到整個深度學習研究社群已經令人難以置信發明新的演算法在這方面不間斷的進展這一些力量增強了深度學習的興起好消息是這些力量還是有力的讓深度學習更好資料, 社群依然投出更多更多的資料計算, 在特殊的硬體像是 GPU 更快的網路很多種硬體我實際上也對我們能建立一個大型的神經網路從共享計算的觀點很有信心會越來越好演算法,整個深度學習研究社群還繼續驚人的在發明演算法因為這些，我想我們可以很樂觀我當然很樂觀在深度學習會繼續未來幾年會更好讓我們到下一段影片我們將談論更多有關您即將從這個課程學習到的