欢迎你 元庆 非常荣幸今天能邀请到您 智力肯定会有影响 如今您是IT研究领域的先驱者 当中国政府寻找人才 开始建立国家深度学习工程实验室时 他们聘请了您 由此可见 我觉得也许您是整个中国 深度学习领域最顶尖的人才 我想针对您的工作请教一些问题 但在那之前 能不能和我们分享一下您的个人经历 您是如何决定开始从事现在的工作的? 好 在我读博士以前 我主修光学专业 比较偏物理专业 所以我觉得 在数学方面 我有很扎实的背景和基础知识 来到美国后 我开始思考 博士学位我要选择什么专业 我当时想 可以攻读光学 或者别的专业 回顾2000年年初 当时纳米技术非常流行 但我想 也许我该专注于一些更令人兴奋的事情 这为我创造了一个很好的机会 在宾夕法尼亚大学读书时 我认识了Dan Lee 之后 他成为了我的博导 我当时觉得 机器学习是一件非常有意义的事 它能让我非常兴奋 所以我选择了换专业 我在宾夕法尼亚读博士时 主修课程是机器学习 一共用了5年 那真是让人热血沸腾的时光 我从零开始 学到了很多知识和算法 例如主成分分析(PCA) 我曾经对这些一无所知 我感觉每天都在学习新知识 这是令我血脉偾张的经历 这就像很多事情的起步阶段 尽管 你知道 你必须不计得失地花费很多时间 去做很多事情 的确 我认为 在NEC(日本电气)美国智能图像研究院的经历也一样令人兴奋
在那儿 我从研究员起步 再一次 体会到了发现新大陆的感觉 我学到了很多东西 在NEC的后期 我开始从事计算机视觉研究工作 相对来说 在计算机视觉工作领域 我入门较晚 我当时做的第一件事 就是参加了ImageNet视觉识别挑战赛 当时是第一届挑战赛 我当时带领团队研究一个项目 非常幸运的是 我们团队非常强 所以最后 我们取得了第一名的成绩 并且取得了巨大的领先优势 所以说你是ImageNet第一届视觉挑战的获胜者? 是的 我还在当时的研讨会上进行了演讲 对我来说 这是非常美好的体验 这也让我真正融入了超大规模的计算机视觉识别领域 从那以后 我就开始致力于研究这类超大规模的问题了 当纽约时报的头版的报道 和之后AlexNet的出现 真的让我非常震惊 我想 哇 深度学习太强大了 从那之后 我在这个领域里投入了很多精力 作为中国 深度学习技术及应用国家工程实验室主任 肯定能接触到许多会让人兴奋不已的项目 所以对于全球 正在观看这个视频的同学们 关于这个实验室 有什么是可以与大家分享的 这个国家工程之实验室的愿景是 构建一个巨型的深度学习平台 希望是最大的平台 至少是中国最大的平台 这个平台会提供像PaddlePaddle这样的深度学习框架 我们会提供巨大量级的计算资源 大量以及多元化的数据资源 如果人们能够在这个平台上 开展研究和研发优秀技术 我们会向他们提供大型应用 例如将这些技术融入百度的大型应用 可以帮助进行整合优化 所以我们相信将这些资源整合以后 会铸就一个非常强大的平台 我来举两个例子 比如 现在我们发表了一份论文 有人看到后想进行重复验证 当前最好的方式 是能够在一个地方找到代码资源 然后你能够下载并从其他地方找到所需要 的数据 自己进行尝试和研究 你可能还需要更好的运算资源以便程序能运行得更流畅 这些工作需要花费你不少精力 国家工程实验室可以让它变得更为简单 所以如果有人再使用这个平台写论文 在论文中需要引用这些代码或成果 这个平台会提供已有的代码 现成的计算框架和数据资源 所以基本上你只要整理出你所需要的数据就好了 这大大缓解了在科学论证上常见的重复性成本问题 所以 很简单的 仅需几秒 你就可以实现在论文里看到的内容并开始学习 是的 这非常强大 这仅仅是一个方面 我们不断努力以确保 为社会和产业构建一个能真正向人们提供帮助的平台 真了不起 它能加快深度学习的研究 嗯 您能稍微透露一下 中国政府会提供 多少资源来支持这个实验室吗? 我认为 对于这个国家工程实验室 政府能够提供建立基础设施的资金 但我觉得更重要的是 这会成为一个里程碑 促进中国深度学习领域的发展 包括国家级的 以及许多政策方面的项目 所以它非常强大 我觉得站在百度的立场 能够拥有这个实验室让我们非常荣幸 您可以说是中国深度学习领域的核心人物 在中国 有许多这方面的项目 是全球观众始终未曾听闻的 那是否有一些可以让国外观众了解的深度学习领域信息呢? 好 我认为在中国 尤其是过去几年 与深度学习相关的产品和服务 发展非常蓬勃 从搜索引擎 到语义识别 舆情监控 再到电子商务等许多方面 我认为中国在深度学习方面投入很大 而且通过科技让商业变得更有价值 这其实对人工智能的发展与普及来说尤为重要 我自己觉得 也有许多人持相同观点 我们相信形成积极的良性循环非常重要 例如 当我们开始着手 研究一些技术时 我们会有一些初始数据 然后会尝试一些初始算法 这些算法会生成这项服务对应的原型产品 之后 我们会得到用户数据 然后从其他方面收集到更多数据 靠这些数据发展出更好的算法 因为只有得到更多数据 我们才知道如何优化算法 当我们获得更多的数据和更好的算法后 就会为产品或服务提供更先进的技术支持 再之后 我们就可以吸引到更多用户 技术会变得更先进 我们又能获得更多的数据 这真是极好的 良性循环模式 这点非常重要 特别是对人工智能的相关技术而言 对于传统科技 比如激光技术 我曾经从事过这方面的研究 这些技术的成长阶段表现得更线性化 但是之前提到的 人工智能的技术 因为有了良性循环 你可以想象 它会出现爆发式快速成长的现象 当我们要为技术开发设计调研的时候 这点非常重要 我们会朝着能够快速发展的方向努力 但是如果整个商业体系不能形成这样的良性循环 如果我们没有建立行之有效的良性循环 就不可能成功 因为其他有远见的人 会用更优秀的商业模式来建立完善的行业生态圈 他们会在你之前把你的路走完 让你无路可走 对我们来说 一个非常重要的逻辑是 当我们拥有一个公司时 我们会进行决策 在哪些方面该投入资源 哪些方面暂时维持现状 这是非常值得重视的因素 如今 无论在中国 还是美国 甚至全球 有许多人想涉足深度学习和人工智能领域 你是否能和他们分享下你的建议呢? 当下肯定有许多人是通过开源的框架起步的 我认为这对初学者非常有帮助 当我在从事深度学习方面的研究时 当时没有太多开放的资源 我认为 在今天 人工智能尤其是深度学习领域 形成了非常好的社群体系 在深度学习框架方面有许多优秀的资源 比如TensorFlow和Caffe 现在也叫做Caffe2 而在中国 我们有非常优秀的PaddlePaddle 甚至在网络上 还有无数课程教你如何使用这些框架 另外 现在 还有许多开放的基准测试 人们可以看到 资深的 技术高超的人 在基准测试中是如何表现的 所以 现在正是进入深度学习领域最好的时机 我觉得这些都是非常好的出发点 你为何会有这样的想法呢 实际上 我曾误入歧途 在接触深度学习之前 我学习了 主成分分析(PCA) 线性判别分析(LDA) 但是我觉得 这也是一种不错的途径 我们先打好了基础 然后学习了图模型(Graphic Model) 这些知识都非常重要 然而现在深度学习已经远不限于这些 但是知道这些内容 会让你了解深度学习的基本原理 并对之后的研究带来很大帮助 总有一天 你会找到深度学习的规律 就像那些框架或原理 我认为其实已经存在许多规律了 这些规律实际上让深度学习更缤纷多彩 让深度学习有更多样化的途径 所以我觉得从开源资源起步是非常明智的 这些都是能极大提高学习效率的资源 同时我会建议你去了解机器学习的基础知识 感谢您精彩的分享 即使我认识你这么久了 你思考的一些具体的内容 此前我都完全没意识到 非常感谢 非常感谢您邀请我
翻译 | 审阅:Cousera Global Translator Community