很感謝您, Pieter 今天加入我們的談話 我想很多人知道您是 著名的機器學習和深度學習機器人研究人員 我想讓人們聽一些您自己的故事 您怎麼會從事這項工作? 這是一個好的問題,其實如果你會問我當我 14 歲的時候 我的志願 可能不是這個 事實上, 當時 我想成為一名職業籃球運動員會是正確的路 我想我沒辦法達成 我覺得機器學習很幸運 籃球事情不順利 是的, 那行不通 籃球很好玩但那行不通 如果把它當成是一個職業 所以,在學校我最喜歡的就是物理和數學 所以,從那裡 似乎很自然地學習工程 應用物理和數學在現實世界中 其實 , 後來畢業於電機工程 我其實不確定要做什麼, 因為 真的, 任何工程我都有興趣 瞭解任何東西如何作用我都有興趣 試著建造任何東西都有興趣 在某種意義上 人工智慧勝出因為它似乎 可以某種程度幫助所有學科以某種方式 它似乎是任何東西的核心 想想看機器如何可以思考 也許那遠比選擇一個特定的學科更核心 我一直說 AI 是新的電力 似乎 14歲的您 早已經有了這樣的視野 過去幾年您做了很多工作在深度強化學習 發生了什麼事?為什麼深度強化學習突然起飛? 在我做深度強化學習之前 我做了很多強化學習 實際上是跟您及 Durant 在史丹佛 我們做了無人直升機飛行 後來在柏克萊跟我一些學生 讓機器人學會折疊洗衣 這工作歸類於學習的組合 不使用學習是無法辦到的 同時跟很多專業領域達人結合學習來讓這個可行 而這是很 有趣因為您需要專業領域達人 去尋找他們很有趣, 同時 非常花時間對於每個新的應用要想成功 您需要專業領域達人跟機器學習專家 對我來說是在 2012 年 ImageNet 從 Geoff Hinton多倫多團隊的突破性結果 AlexNet 展示了監督式學習, 突然之間 可以用很少的專業領域工程達人 只有很少的視野工程專家在 AlexNet 這使我想起我們真的應該重新檢視 強化學習在相同的觀點下看看是否我們可以 讓強化學習的轉向的可行性, 做 剛剛發生在深度監督式學習一樣有趣的事 似乎您比大部分的人更早 看到深度強化學習的潛力 現在看未來 您看下一步呢? 您的預測對於 即將來到的深度強化學習的下幾個方向是什麼? 我想深度強化學習的有趣地方是 有比監督式學習更多的問題 在監督式學習, 是有關於輸入輸出的映射 在強化學習裡的概念是: 這些資料從何而來? 所以這是探索的問題 當您有了資料,您如何歸類分配? 您如何理解什麼樣早先的動作會得到以後的獎勵 ? 然後, 還有安全問題 當您有一個系統自動收集資料 這實際上在大部分情況下是十分危險的 想像一下, 自動駕駛公司說 我們來跑深度強化學習 很有可能這車子會弄出很多 意外在他變得有用之前 您需要負面的例子, 對吧 ? 您真的需要一些負的例子 跟希望是正的例子 我想還是有很多挑戰在 深度強化學習在 一些特定的方面讓這些東西可行 深入的部分在於表達方式 但強化學習本身也有很多問題 我的感覺是 因為深度學習的前進 一部分的謎團在強化學習已經被大部分解開 也就是表達部分 如果有一種規律我們 也許可以用深度網路來代表它來捕捉這種規律 如何梳理這些規律在強化學習仍然是一個巨大的挑戰 我想大的挑戰是 如何讓系統合理化經過一段長的時間 所以現在, 很多的成功 在深度強化學習是很短的時間 問題在於 如果您可以在五秒的時間表現很好 您在整個問題會表現得很好嗎? 一個五秒的規模是非常不同於一天的規模 或者一個機器人或者軟體代理人的生命週期 我想有很多的挑戰在那裡 我想安全性有很多的挑戰在於 您如何安全地學習跟如何 持續地學習當您已經很好的時候? 舉個例子 很多人都很熟悉的, 自駕車 要使得自駕車比人類駕駛好 人類駕車也許會碰到糟糕的意外大約每三百萬哩 所以需要很長的時間才能見到負的資料 當您的系統像是很棒的人類駕駛 但如果您想要自駕車表現比人類好 在這一點資料收集變得很難去獲得 有趣的資料來提升您的系統 有很多的挑戰來自於資料探索 我現在最興奮的一件事是看到 如果您可以退一步也學習強化學習演算法 強化是非常複雜的 歸類分配很複雜, 資料探索很複雜 或許, 就像 監督式學習的深度學習能夠取代很多專業領域達人 或許我們可以用程式學習 用強化學習程式做到這一切 而不是由我們設計這些細節 學習獎勵函數或者整個專案 會是學習整個強化學習專案 將會是, 想像 您有強化學習專案, 不管做什麼 您丟給它一些問題然後看它需要學多久 然後您說, 好吧 , 需要一點時間 再讓另一個專案修改這個強化學習專案 經過修改後, 看它可以學習多快 如果它學得比較快 那會是一個好的修改,也許保留它然後繼續改進 我明白了, 這是正確的方向 我想這也許跟 可用的計算量有關 應該是要跑強化學習在內迴圈中 對照現在我們跑強化學習在最後一件事 越多我們可以用的計算能力 越是有可能跑一些 像強化學習在內迴圈在大的演算法中 從 14 歲開始 您在AI 做了將近20幾年 可以告訴我們您覺得AI 在這段期間的演變嗎? 當我開始做 AI 它真的很有趣因為它 恰巧是我來史丹佛做我的碩士學位 有一些偶像像是 John McCarthy 我跟他交談過 但他有很不同的方向 在 2000年時 相對於大部分的人做的 也跟 Daphne Kokker 談過 我想我很多起初AI的想法是Daphne塑造的 她的AI課程, 她的機率圖形模型課程 是真的引起好奇心對於 僅僅是一個她的很多隨機變數的分佈能夠條件於 一些子集合然後得出有關其他相關的結論, 可能 真的給您很多, 如果您可以讓它變得能夠計算 而真正的挑戰在於讓它可計算 而從那裡 我開始我的博士學位而您來到史丹佛 我想您給我很好的現實檢驗 那不是一個好的度量標準來衡量您的工作 真的試著看這連結從 您做什麼, 到這個會產生什麼影響 產生什麼變化而不僅僅只是看數學在您的工作發生了什麼 是的, 真令人驚訝 我沒意識到, 我已經忘了 是的, 那就是這麼一回事, 除了人們經常問 如果您只可以引用一件事您一直記住從 Andrew 得到的建議 就是確定您可以看到它真的可以做一些事情的這些連結 您已經而且持續的有很驚人的 AI 事業 對於一些人看這段影片 如果他們也想進入或者追尋AI 的事業 您會給他們什麼建議? 我想這是好的時間點來進入人工智慧領域 如果您看到對於這類人的需求, 是如此之高 有很多的就業機會 很多您可以做的事, 研究方面 成立一個新的公司等等 我會說, 是的, 這樣做絕對是一個聰明的決定 很多時候,您可以自學 不管您在不在學校 有很多線上課程, 舉例來說 您的機器學習課程 還有, 舉個例子 Andrej Karpathy 深度學習課程也有線上影片 是很棒的方式開始 柏克萊也有深度強化學習課程 讓所有的課程上線 這些是很好開始的地方 我想最重要的是確定您自己試著做這些 不只是讀東西或者看影片而是試著做看看 使用像 TensorFlow Chainer, Theano, PyTorch 等等框架 用您喜歡用的 真的是很簡單上手跟跑得很快 自己練習, 是吧? 建置完成後來看哪些可行哪些不可行 上個禮拜有一篇文章 在 Mashable 有關一位16歲孩子在英國 是 Kaggle 比賽的領先者之一 這篇文章說 他只是走出來學事情 從線上找東西, 自學且 從未上過任何正式的課程 有這麼一個16歲孩子在 kaggle競爭中很具競爭力 所以這一定可行 我們正逢其時 如果人們想要學習 完全正確完全正確 我敢說您常被問到一個問題 是如果有人想要進入AI, 機器學習跟深度學習 他們應該攻讀博士學位或者到大公司找工作? 我想絕大一部分取決於您可以得到多少指導 所以,攻讀博士學位 你被保證有這樣指導 教授的工作 是您的指導老師 是來照顧您 試著盡他們可能得來 塑造您 幫助您變得更強在不管您想做什麼, 例如 AI 所以有很清楚的專人,有時候兩位指導老師 這正是他們的工作因為他們是教授 做一位教授最喜歡的是幫助 學生塑造成更有能力做事 但這也不是說在公司就沒辦法 很多公司有真的好的導師喜歡 幫助教育人們進入跟加強他們(這個領域)等等 只是這並不掛保證 相較於真的攻讀博士學位, 那真的是 一個過程您就是要學而且有人幫助您學 所以取決於公司跟取決於博士學位課程 是的, 但我想重點是您可以自學很多東西 但我想您可以學得更快如果您找到一位比較有經驗 把這個當成是 他們的責任花時間幫助您加速整個過程 您是在深度強化學習最常見的領導者之一 什麼是 深度強化學習已經做得很好的? 如果您看一些深度強化學習成功的例子 是很奇妙 舉個例子, 學習玩 Atari 遊戲從圖像素 處理這些像素就只是一些數子 經過處理後變成遊戲搖桿的動作 在一個例子, 我們在柏克萊做的是 我們有一個模擬機器人發明走路而獎勵是 簡單的越往北走越好 且越不影響地面越好 而它決定發明一邊走一邊跑但 沒有人顯示過什麼是走路什麼是跑步 或者機器人在兒童玩具店然後學著將他們放在一起 放一個積木在比賽開幕上等等 我想這真的很有趣, 所有這些都能學習 從原始感測器輸入一直到原始控制項 舉個例子, 馬達的力矩 但同一時間 有趣的是您可以用一個簡單的演算法 舉個例子, 一時脈衝的推力, 您可以學習 可以讓機器人跑步 可以讓機器人站起來 可以與其用兩條腿 換成四條腿機器人 您跑同樣的強化演算法, 它還是會學跑步 所以,不改變強化演算法 是非常一般化, 同樣對於 Atari 遊戲 DQN 是一樣的 DQN 對於每一種遊戲 但當它真的開始碰到 一些瓶頸現在沒辦法做的時候 它的學習總是從頭開始 但如果能從重新使用過去學習的經驗會更好 在下一段學習時可以更快 而這個是目前的瓶頸還沒辦法做到 它永遠從頭開始 依您看,需時多久深度 強化學習部署在機器人上環繞我們四周 機器人開始部署在我們的世界 我想現實面來看可行的是 它開始於監督式學習 行為複製, 人類做工作 我想很多企業會這樣做 人們在幕後做很多的事 想像臉書訊息助理 助理像那樣可以用人類在 幕後做很多事, 機器學習 配合人們做的事開始給一些建議 人們可以有比較少的選項他們可以點擊跟選擇 經過一段時間 當它變得很好時 您開始融入一些強化學習您給它一些目標 不只是配合幕後的人們 但給予目標去達成像是 或許, 這兩個人多快可以排一個會議? 他們多快可以訂機票? 像這樣的事, 需時多久 他們的滿意程度? 但這或許要開始於很多 行為複製對於人們顯示這些如何做到  看來行為複製在監督式學習去 模擬人類行為然後慢慢的 強化學習用來讓它想長一點的時間 這是對的總結嗎? 我會這樣說,是的 因為從從頭開始的強化學習是一件有趣的事來看 那是超級有趣很少有這麼有趣的事來看 就是強化學習機器人從零開始到發明一些東西 但就是花時間且由時候並不安全 非常感謝, 這真的令人著迷 我真的很高興有這個機會聊天 謝謝您 Andrew, 非常感激有這個機會