ピーター きょうは 来てくれてありがとう 多くの人があなたを 有名な機械学習、深層学習 ロボットの研究者として知っています みなさんにあなたの物語を 聞かせてくれませんか どのようにして 今の仕事にたどり着いたのでしょうか もし14才の時に何をしたいと思っているかと 聞いてくれたら いい質問でしたね こんな風には なるつもりはありませんでした 実は その当時は プロのバスケットボール選手になるのが 良い道だと思っていましたが 実現するのは 無理だと思いました バスケットボールでは うまくいかなくて 機械学習は 運が良かったです そうです うまくいきませんでした バスケットボールは楽しかったですが 職業にするのは うまくいきませんでした 学校で本当に好きだったのは 物理と数学で そこから 物理と数学を 実世界で適用するような 工学を学ぶのは とても自然に思えました そして実は 電気工学を学部で学んだあとは 何をすれば良いか 分かりませんでした というのも文字通り 工学なら何でも面白く思えました どんなものでもなぜ動くのかを理解するのは 面白く思えましたし 作ることも 面白く そして ある意味で 人工知能は様々な方法ですべての分野を 助けることになると思えたので 人工知能が勝ち上がりました またすべてのものの 核になるようにも思えました 機械が考えられる方法を考えることは 特定の分野を選ぶことよりも これがより全てのことの核かもしれません わたしはAI は次世代の電気だと言い続けています まるで14才版のあなたは これの初期版が すでに見えていたかのようです 過去数年には 強化学習の 多くの研究をされています なにが起こっているのですか なぜ強化学習は突然うまく行き始めたのですか 深層強化学習に取り組む前は 強化学習を多く研究しました 実のところ あなたと スタンフォードのデュラントととです 自律飛行ヘリコプターに 取り組んだのち バークレーで ロボットに洗濯物を 折りたたませる研究をしていた学生と 一緒に研究しました この研究を特徴づけていたのは 学習なしでは実現できないことを 実現することと 学習と共に多くの専門知識の組み合わせが この領域をうまく動かすには必要でした そして とても興味深いのは というのは専門知識が必要で 専門知識を得るのは楽しかったですが 新しい適用例で成功するには とても時間がかかるものでした 専門知識が必要で しかも機械学習の専門知識が必要でした 私にとっては 2012年の トロントのジェフリー・ヒントンのグループの ImageNet での画期的な成果がありました AlexNetでは 突然 教師あり学習が その領域の工学的な知識を ほとんど必要としないことを示していました AlexNet では視覚の工学的な知識は ほとんど使われていませんでした 知識が不要なことは 強化学習でも 同じような視点で 再思考してみることが必要だと考えさせられました 強化学習が成果を出せるように 転用してみて 深層教師あり学習で起こったように 同じように興味深いことができないか考えさせられました あなたは深層強化学習の可能性を 多くの人が見つけるよりも 早くから見ていたように聞こえます では未来を見た場合に 次はなにが見えるでしょうか あなたは 深層強化学習での 次に来るいくつかの波を どう予測されていますか 深層強化学習で面白いのは 教師あり学習よりも ある意味で より多くの課題があるということです 教師あり学習では 入力と出力を学習させることが核心です 一方 強化学習では データをどこから得るのかという疑問があります これは調査問題です データがある場合には 貢献度分配の問題があり どの先行するアクションに対して 報酬を与えるべきかを解釈する問題があり さらに安全性の課題もあります 自律的にデータを 収集するシステムの場合 多くのケースで 実はかなり危険です 自動運転車の会社が 深層強化学習を行うと 言ったらどうなるでしょうか この会社の車が 使えるものになる前に 多くの事故にあうのは かなりあり得る話です 確かに 学ぶための負例が 要りますね はい どうにかして 負例を入手する必要があります そして 良いことに正例もです 深層強化学習には まだ課題が多くあります うまく動作するようにするには 詳細を調整する必要があるという点です 困難な部分は 表現ですが 強化学習そのものも いまだに多くの課題があります ここで思うのは 深層学習が 進歩することで 強化学習の課題のひとつに対して 大きく答えを出そうとしています これは表現の部分です パターンがあれば 深層ネットワークで 表現を表わすことができて パターンを捉えることができたとしても パターンをどう分けるかが 強化学習での大きな課題のひとつです そして 大きな課題は 長期的な観点で システムが理由付けできるようにすることです 現在は 深層強化学習の成功は 非常に短期的な観点のものです こんな問題があります 5秒の観点で 上手くいって この間は問題全体で 上手くいったとして 5秒間の尺度は 1日の尺度とは大きく異なるものです ロボットだったりソフトウェアのエージェントとして 生きる能力としても大きく異なります このように 多くの課題があります また安全性も 多くの課題があります どのようにして安全に学んで 一旦上手くなったとして どう学習しつづけるかという点についてです もう一度 身近な例の 自動運転車を 例にあげましょう 自動運転車が 人間の運転者よりもうまくなるには 人間の運転者が3~5百万キロに1度くらいの頻度で 大きな事故を引き起こすとして 一旦人間と同じくらい上手になったとして 負例に出会うまでに 長い時間がかかります もし人間の運転者よりも 自動運転車の方が上手にしたい場合には この状態まで到達すると システムを向上できるような この重要なデータを収集するのは 非常に困難になります 探索に関する多くの課題があり これに関連しています 今 一番楽しいと 思っていることは 一歩立ち戻って 強化学習のアルゴリズムを 学習させられないかということです 強化学習はとでも複雑です 貢献度分配も 探索も非常に複雑です このため 教師ありでの深層学習では ドメインの専門性を置き換えることができたように 学習するようなプログラムを 作れるかもしれません 私たちが詳細を 設計するのではなく 強化学習のプログラムが これをすべて行います 報酬関数をですか それともプログラム全体ですか 強化学習のプログラム全体を 学ぶ方法のものです 想像してみてください どんなものになるとしても 強化学習のプログラムがあり 問題を投入してみて どれくらいの時間で学習できるのか見てみます ある程度の時間が かかったとします また別のプログラムで この強化学習プログラムを変更します 変更後に どの程度速く学習できるか見てみます もし より速く学習できれば 良い変更として保管して そこから改善していきます 素晴らしいです 難しくて熱意が要る方針ですね たぶん このことは 利用できるようになる計算力の量と 大きく関連しています この場合には ループの中で 強化学習を実行させることになります 現在は 強化学習を 最終的なものとして実行していますが より多くの計算力が あればあるほど 包み込むアルゴリズムの中で 強化学習を ループさせるようなものが 可能になります さて 14才のときのあなたから 始まり AI を20年以上 研究されてきました その間に AI に関する理解が どのように進化したか少し聞かせてください まずAI を見始めた 最初のころは 非常に興味深く思えました スタンフォードに博士号を取りに来た時と 偶然にも一致して アイコンとなるような人がいました ジョン・マッカーシーもいて話しました 彼は非常に異なる方法を 使っていました 2000年の当時は 他のひとは異なる方法を 使っていました ダフネ・コラーとも話しました わたしの最初のAI の考えは ダフネの考えで形成されたと思います 彼女のAI の授業や 確率的グラフィカルモデルの授業にもです 本当に好奇心を そそられていました 多くのランダム変数の分布があり 一部の変数の条件を付けることで 残りの部分についての結論を 導びけるということは もし計算で扱いやすくできれば 非常に役立つものでした 計算できるようにするのは 間違いなく挑戦でした その後 修士号を始めるころに あなたがスタンフォードに来ました あなたは本当に役立つ 現実性のチェックをしてくれました 先ほどの方法が研究を評価するのに 正しい測定基準ではなくて 研究しているものと その研究がもたらす影響の関連性を 測ろうとするものでした 研究にどんな数学が使われているかではなく どんな変化をもたらすかを測ろうとしてくれました それは素晴らしいです 気付いてませんでした 忘れていました ほとんどの人たちが尋ねることは別として 本当に特別なものでした もし何か1つ肝に命じていることがあるとしたら 何ですかと聞かれたら 「それによって実際に何かができるかどうかという 関連性を見られるようにしなさい」というアンドリューの助言です あなたはAI での素晴らしいキャリアを 築いてきましたし これからもそうでしょう このビデオを見ている人たちに対して もしAI のキャリアを 始めて追求したいとしたら どんな助言をしますか 人工知能の領域に参入するのは とても良い時だと思います 人の需要をみると かなり高いです 多くの求人があり 研究にしても 起業にしても それ以外にも 多くのことができます 実際に取り掛かってみるのは 間違いなく賢い選択だと思います 多くのものが 自習で学べます 学校に通っいても いなくてもです 多くのオンラインのコースが あります 例えば あなたの機械学習のコースだったり 他にもアンドレ・キャパシーの 深層学習のコースもあります オンラインのビデオを公開していて 始めるには 素晴らしい方法です バークレーは 深層強化学習のコースがあり これも全ての講義が オンライン公開されています これらはすべて 始めるのに良い場所です 大切なことの大部分を占めるのは 自分で試してみることです 読んだり ビデオを見るだけでなく 試してみることです TensorFlow などの フレームワークだったり Chainer、Theano PyTorch だったりをです どれでもいいのですが 始めるのはとても簡単で 非常に早く何かを作って動かせるようになります 自分自身で 練習してみることですね なにが動作して動作しないかを 実装して結果を見てみることですね 先週ですが Mashable に記事がありました 英国の16才の人のことで Kaggle の競技でも 成績のよい人の1人です 記事によれば 彼は一旦始めると 学習し オンラインで資料を見つけ 自分で学んで いわゆる正式なコースは 全く受けていないとのことでした そして Kaggle の競技で 非常に競争力のある16才が生まれたのです 間違いなく可能です 学びたい人にとっては 良い時代に暮らしてます 確かにそうです あなたが必ず質問を 受けていそうなことの1つは もしAI か 機械学習か深層学習を 始めようとしている人がいたら 博士課程に出願すべきか 大きな企業での仕事に就くべきでしょうか これはどれくらいの指導を得られるかと 大きく関係があると思います 博士課程では 保証されています 教授の仕事は あなたの顧問であり あなたの面倒を見ることです 教授はできることをなんでもして あなたが 例えばAI などのやっていきたいことに 強くなれるように助けることです とても明確に特別に割り当てられた人がいて 時に2人のこともあります 文字通りこれが教授の仕事で それが教授である理由でもあります 教授がその仕事で好きなことは 多くの場合 学生がより能力を付けるように 育てることです 必ずしも企業では できないというわけではありません 多くの会社には 良いメンターがいて 新しく入社した人の教育や育成を 助ける人たちがいますが 博士課程に 入学することほどには 保証されていたり 前提になっていないでしょう 課程の最重要点は 学ぼうとしているということと 助けてくれる誰かがいることです それぞれの会社や博士課程次第 ということでしょうか もちろんです 多くのことを 自分自身で学ぶことができますが 鍵となるのは より経験を積んだ人がいたり 教える側の責任として 時間を使って 進行度合いを加速させてくれる人がいると より速く学べるということです あなたは強化学習の領域で 継続的に最も注目を集めているリーダーの1人です 深層強化学習で 上手くいっていることは 何でしょうか 深層強化学習が 成功している例を見ると 非常に好奇心を そそるものです 例えば ピクセルをもとに アタリ製のゲームを扱うように学習することです ただの数字であるピクセルを なんらかの方法で処理して ジョイスティックの行動に変換します 他の例では バークレー校で 私たちが研究した 歩行を閃いたロボットがあります 報酬は 北に行けば行くほどほど良くて 地面との衝撃が少ないほど 良いというものでした どのようにかして 歩行や走行が 発明すべきものと判断しました 誰かが 歩行や走行が何かを 見せたわけではないのにです 子供用のおもちゃで遊んで 空いているところが合致するように 組み合わせていくことを 学んだロボットがあります これらの例での 生のセンサー入力から 例えば駆動系のトルクなどの生の制御までを 学べることは 非常に興味深いことだと思います しかし それと同時に 単一のアルゴリズムで済むことも 非常に興味深いです Trust Region Policy Optimization (TPRO) では 走ることを 学ぶロボットがいたり 立ち上がることを 学ぶロボットがいたり 2本足のロボットを 4本足のロボットと交換しても 同じ強化学習のアルゴリズムを使って 依然として走ることを学ばせることができます つまり 強化学習のアルゴリズムは 全く変更しません 般化できるものです アタリのゲームも一緒です DQN はどのゲームに対しても 同一のDQN でしたが 現在まだ不可能なところに 最先端に ぶつかりはじめました それぞれのタスクに対して ゼロから学べるのは良いことですが 過去に学んだものを再利用して 次のタスクをより速く学べれば より素晴らしいことです これはまだ最先端の領域で まだ可能になっていません 基本的に 常にゼロからの開始が必要です いつ頃に 深層強化学習が 私たちの周りのロボットに 配置されると思いますか 現在 配置されようとしている所にいる ロボットです 実践では 現実的なシナリオでは 教師あり学習から始まり 人の行動を真似するもので 人が作業をします 多くのビジネスはこのような方法で 作られるでしょう 人が裏で多くの仕事を するような状態です フェイスブックの メッセンジャーアシスタントを考えてください 影には人がいて 多くの作業を行います このようなアシスタントが できるでしょう 機械学習が人の行うことに 合致するものを人に提案することで 人の選択肢を少なくして クリックするだけで良いようにします 時とともに とても良くなったところで 強化学習を導入し始めて 影の人に合致させるだけではなく 実際に目的を与えるようにします 与えるようにする達成目的は メッセンジャーの2人が どれだけ早く会議を設定できるかだったり 飛行機を予約できるかだったり するようなものになります どのくらい時間が かかっただったり どの程度 満足いくものだったか しかし 人が どう行動するのかを見せて 行動を真似させるには 多くのものをゼロから作る必要があるでしょう つまり 行動を真似させるときには 教師あり学習で 人の行動を真似させて あとで段階的に 強化学習を行って より長い時の観点で考えられるようにする このような要約で 正しいでしょうか そう言えるでしょう ゼロからの強化学習は とても見ていて面白いもので 好奇心をそそるもので 強化学習ロボットが何もないところから 色々と閃いていくところを見ることほど 面白いものはなかなかありません 時間のかかることですし いつも安全にできるわけではありません どうもありがとうございました 素晴らしかったです 話す機会ができて 本当によかったです アンドリュー お招きいただきありがとう 非常に感謝しています