Muito obrigado, Pieter por juntar-se a mim, hoje. Eu acho que muitas pessoas conhecem você como um renomado pesquisador sobre aprendizagem de máquina e robótica. Gostaria que as pessoas ouvissem um pouco sobre a sua história Como você acabou fazendo o trabalho que você faz, atualmente? É uma boa pergunta, que se tivesse sido feita quando eu tinha 14 anos de idade, o que eu gostaria de ser, provavelmente não seria o que faço agora. De fato, naquela época, eu pensava que ser um jogador profissional de basquete, seria o caminho a seguir. E eu não acho que seria capaz de segui-lo. Acho que aprendizagem de máquina teve mais sorte, já que a ideia do basquete não funcionou. Sim, não funcionou. Era muito divertido jogar basquete, mas não funcionou tentar tornar isso uma carreira. Então, o que eu realmente gostava na escola era de física e de matemática. Então, daí parecia completamente natural, estudar engenharia, que é a aplicação de física e matemática no mundo real. E, na verdade, depois de minha graduação em engenharia elétrica, eu realmente não estava certo sobre o que fazer, porque, literalmente, qualquer coisa em engenharia, parecia interessante para mim. Entender, como qualquer coisa funcionava, parecia interessante. Tentar construir qualquer coisa, é interessante. E, de alguma forma, inteligência artificial venceu porque parecia que, de alguma forma, ela ajudaria todas as disciplinas. E também, parecia, de alguma forma, no centro de tudo. Você pensa sobre como uma máquina pode pensar, então, talvez esteja mais, no centro de qualquer coisa do que escolher alguma disciplina específica. Venho dizendo que IA é a nova eletricidade, soa como se a sua versão de "14 anos" tinha uma visão antecipada disso. Você sabe, nos últimos anos, você tem trabalhado com aprendizagem profunda por reforço. O que está acontecendo? Por que a aprendizagem profunda por reforço, de repente está decolando? Antes de trabalhar com aprendizagem profunda por reforço, eu trabalhei bastante na aprendizagem por reforço; na verdade, com você e Durant em Stanford, com certeza. E então, trabalhamos no voo autônomo do helicóptero, então, mais tarde em Berkeley, com alguns de meus alunos que trabalhavam na construção de um robô que aprendesse a dobrar roupas. E, de alguma forma, a caracterização do trabalho era uma combinação de aprendizado, que proporcionaria coisas que não seriam possíveis sem o aprendizado, mas também, muito domínio da expertise, em combinação com a aprendizagem, para fazer isso funcionar. E isso era muito interessante porque, você precisava dominar a expertise que, era divertida obter mas, ao mesmo tempo, consumia muito tempo para qualquer nova aplicação funcionar bem; você precisava dominar o assunto além da expertise em aprendizagem de máquina. E, para mim foi em 2012 com, os resultados das importantes descobertas do grupo de Geoff Hinton, no ImageNet, em Toronto, AlexNet, mostrando que o aprendizado supervisionado, de repente, poderia ser feito com menos "engenharia" para dominar do assunto. Havia muito pouca "engenharia" na visão em AlexNet. Isto me fez pensar que nós realmente deveríamos revisitar a aprendizagem por reforço sob o mesmo prisma e ver se podíamos fazer o desvio da aprendizagem por reforço funcionar e fazer coisas igualmente interessantes, da mesma forma que aconteceu na aprendizagem profunda supervisionada. Parece que você identificou, antes da maioria das pessoas, o potencial da aprendizagem profunda por reforço. E agora, olhando para o futuro, O que você vê, na sequência? Quais são as suas previsões para os próximos caminhos a serem trabalhados na aprendizagem profunda por reforço? Então, eu penso que o que é interessante sobre aprendizagem profunda por reforço é que, de alguma forma, há muito mais perguntas do que no aprendizado supervisionado. Aprendizado supervisionado, é sobre aprender e mapear as entradas e saídas. Mas aprendizagem por reforço, existe a noção de: De onde mesmo vêm os dados? Então, este é o problema exploratório. Quando você tem os dados, como credita as atribuições? Como você entende que ações tomou antes para conseguir o resultado depois? E então, há questões de segurança. Quando você tem um sistema, coletando dados autonomamente, é, na verdade, mais perigoso na maioria dos casos. Imagine uma empresa de carros autoconduzidos que diz, nós executaremos só aprendizagem profunda por reforço. É bem provável que este carro se envolva em um monte de acidentes, antes de fazer algo útil. Você, precisava de exemplos negativos disso, certo? Sim, de alguma forma você precisa mesmo de exemplos negativos; e positivos também, ainda bem. Então, acho que ainda temos muitos desafios na aprendizagem profunda por reforço em termos de trabalhar nos detalhes de como colocar as coisas para funcionar. Então, a parte mais profunda é a representação, mas então, a aprendizagem por reforço, por si só tem ainda muitas questões. E o que eu penso é que, com os avanços em aprendizagem profunda, de alguma forma, uma parte do quebra-cabeças na aprendizagem por reforço tem sido amplamente abordada, que é a parte da representação. Então, se há um padrão, podemos provavelmente representá-lo numa rede de aprendizagem profunda e capturá-lo. E, como separar estes padrões, continua sendo um grande desafio na aprendizagem por reforço. Então eu acho que os grandes desafios são, como conseguir que os sistemas funcionem num horizonte de longo prazo. Então, agora mesmo, muitos dos sucessos em aprendizagem profunda por reforço estão num horizonte de curto prazo. Existem problemas onde, se você age adequadamente em um horizonte de 5 segundos, você age adequadamente sobre o problema como um todo. E então, uma escala de 5 segundos é algo bem diferente de uma escala de um dia inteiro, ou, a habilidade de viver a vida como um robô ou como um agente de software. Então, acho que ainda temos muitos desafios. Acho que segurança tem vários desafios em termos de como aprender de forma segura e também de como você continua aprendendo, uma vez que você é razoavelmente bom? Então, para dar, novamente, um exemplo que muita gente estaria familiarizada, com carros autoconduzidos, para um carro autoconduzido ser melhor que um dirigido por um ser humano, os motoristas talvez se envolvam em acidentes graves a cada 5 milhões de Km, aproximadamente. E então, leva muito tempo para ver os dados negativos; uma vez que você é, tão bom quanto um motorista "humano". Mas você quer que o seu carro autoconduzido seja melhor que um motorista "humano". E então, naquele ponto, a coleção de dados torna-se realmente difícil obter aqueles dados que interessam para fazer seu sistema melhorar. Então, são muitos desafios relacionados à exploração, que encontram-se interconectados. Mas, uma das coisas que me deixa mais animado, agora, é ver se podemos, realmente, dar um passo atrás e também aprender sobre o algoritmo de aprendizagem por reforço. Então, o reforço é muito complexo, atribuição de crédito é muito complexa, exploração é muito complexa. E então, talvez, como aprendizagem profunda na aprendizagem supervisionada era capaz de substituir uma grande quantidade do domínio prático, talvez possamos ter programas que sejam aprendidos, que sejam programas de aprendizagem por reforço que façam tudo isso, em vez de nós termos que projetar os detalhes. Durante a função de recompensa ou durante o programa todo? Então, isso seria aprender todo o programa de aprendizagem por reforço. Então, seria, imagine, você ter um programa de aprendizagem por reforço , o que quer que isso signifique, e você descarta algum problema e então vê, quanto tempo leva para aprender. Então, você diz, bem, demorou um pouco. Agora, deixe um outro programa modificar este programa de aprendizagem por reforço. Após a modificação, veja o quão rápido ele aprende. Se ele aprende mais rapidamente, significa que foi uma boa modificação e que deva ser mantida e melhorada a partir deste ponto. Bem, entendo, certo. Sim direcionamento ambicioso. Eu acho que isso tem tudo a ver com, talvez a quantidade de processamento que está sendo disponibilizada. Então, estaria rodando o programa aprendizagem por reforço num laço de repetição interno. Para nós, agora, rodamos o programa de aprendizagem por reforço como última coisa. E então, quanto mais processamento conseguimos, mais possibilita para, talvez, executar algo como a aprendizagem por reforço, no laço de repetição interno de um algoritmo maior. Começando pelos seus 14 anos, você vem trabalhando em Inteligência Artificial, por algo além de 20 anos, até agora. Então, me fale um pouco sobre como o seu entendimento sobre IA evoluiu neste período. Quando comecei a pesquisar sobre IA, foi muito interessante porque, na realidade coincidiu com a minha ida para Stanford, para fazer meu mestrado lá, e haviam alguns ícones, como John McCarthy, com quem conversei, mas que tinha uma abordagem bem diferente, e no ano 2000, para o que a maioria das pessoas estava fazendo naquele momento. E também conversando com Daphne Koller. E acho que, muito do meu entendimento inicial, sobre IA foi moldado pelo pensamento de Daphne. Sua aula sobre IA, sua aula sobre modelos gráficos probabilísticos. me deixaram intrigado sobre como a simples distribuição de suas muitas variáveis randômicas e, então, ser capaz de condicionar alguns subconjuntos de variáveis e tirar conclusões sobre outras poderiam na verdade, nos dar muito, se você puder, de alguma forma, torná-la computacionalmente atrativa, o que era, definitivamente o desafio de torná-la possível de se calcular. E a partir dai, quando comecei meu doutorado, e você chegou em Stanford e acho que você me deu um excelente choque de realidade, de que não seria a métrica certa para avaliar o trabalho, e de, realmente tentar ver a conexão com o que você está trabalhando e que impacto eles realmente podem ter, que mudança pode causar, mais do que a matemática que foi usada para que pudesse acontecer. Certo. Isso é incrível. Eu não me dei conta, me esqueci disso. Sim, na verdade é uma das coisas, que mais frequentemente as pessoas pedem, se você citar, somente uma coisa que você aprendeu, dos conselhos de Andrew, é estar certo de ver a conexão de onde isto realmente vai atuar. Você teve, e continuará tendo, uma carreira surpreendente na IA. Então, para algumas das pessoas que estão assistindo você em vídeo, agora, se eles quiserem entrar e seguir carreira na IA, que conselho você daria para eles? Penso que é realmente uma boa hora para entrar em Inteligência Artificial. Se você olha a demanda por pessoas, é muito alta, há muitas oportunidades de trabalho, tantas coisas que pode fazer, pesquisas, construir novas empresas e por ai em diante. Então, eu diria que sim, é, definitivamente uma decisão inteligente em termos de ir adiante. Muito disso, você pode estudar por si mesmo, esteja, você ou não na escola. Há uma grande quantidade de cursos on line, por exemplo, seu curso sobre Aprendizagem de Máquina, há também, por exemplo, curso de Aprendizagem Profunda de Andrej Karpathy, que tem vídeos on line, que é uma grande maneira de começar, Berkeley, que tem um curso de Aprendizagem Profunda por Reforço, que tem todas as palestras, on line. Então, existem todos estes bons lugares para começar. Acho que uma grande parte do que é importante é estar certo de tentar coisas por você mesmo. Então, não somente ler ou assistir vídeos mas, experimentar. com estruturas como TensorFlow, Chainer, Theano, PyTorch e assim por diante, Quero dizer, qualquer que seja o seu favorito, é muito fácil ir adiante e criar alguma coisa e fazê-la rodar muito rapidamente. Para você mesmo praticar, certo? Implementando e vendo o que funciona e o que não funciona. Então, a semana passada, houve um artigo no Mashable sobre um adolescente de 16 anos, no Reino Unido, que é um dos líderes na competição de Kaggle. E ele simplesmente disse, que tinha ido e aprendido coisas, que descobriu coisas on line, aprendeu tudo sozinho e na verdade, nunca fez um curso formal. E há um adolescente de 16 anos, sendo muito competitivo no torneio de Kaggle, então, é definitivamente possível. Vivemos em bons tempos. Se as pessoas querem aprender. Absolutamente. Uma pergunta que eu aposto deve surgir sempre é, se alguém quer entrar para IA, Aprendizagem de máquina e Aprendizagem profunda, deveria se candidatar a um programa de doutorado ou deveria conseguir um emprego em uma grande empresa? Acho que muito disso, tem a ver, talvez, com a quantidade de mentoring você pode ter. Então, em um programa de doutorado, você tem a garantia, o trabalho do professor, que é seu conselheiro, que é de cuidar de você. Tentar fazer com você tudo o que eles puderem fazer, para de alguma forma, formá-lo, ajudá-lo a tornar-se mais forte no que quer que você decida fazê-lo, por exemplo, IA. E então, há uma pessoa claramente dedicada a você, algumas vezes, duas pessoas. E isso é, literalmente, o trabalho deles, e é por isso que são professores, o que eles mais gostam em serem professores, normalmente, é ajudar formar os estudantes para serem mais capazes nas áreas. Agora, isto não significa não ser possível nas companhias, e muitas empresas realmente têm bons mentores e têm pessoas que adoram ajudar a educar pessoas que entram, fortalecê-las e assim por diante. Apenas, pode não ser uma garantia e um dado concreto, comparado com aplicar-se a um programa de doutorado, ou será uma farsa o programa é que, você irá aprender e alguém irá a ajudar você a aprender. Então, isto realmente depende da empresa e depende do programa de doutorado. Com certeza sim, mas penso que a questão central é que você pode aprender muito, por conta própria. Mas acho que você pode aprender mais rapidamente se você tiver alguém que seja mais experiente, que, na realidade o apoia como, sua responsabilidade, passar o tempo com você e ajudar a acelerar o seu progresso. Então, você tem sido um dos mais visíveis lideres na aprendizagem profunda por reforço, o que são as coisas nas quais a aprendizagem profunda por reforço está realmente funcionando? Acho que se procurar por sucessos na aprendizagem profunda por reforço, é muito, muito intrigante. Por exemplo, aprender a jogar jogos Atari através dos pixels, processando estes pixels, que são apenas números que estão sendo processados e, de alguma forma, transformados em ações de joystick. Então, por exemplo, um dos trabalhos que fizemos em Berkeley foi ter estimulado a invenção de um robô que andasse e, a recompensa que foi dada foi tão simples quanto: quanto mais você vai para o norte, melhor e quanto menos duro for o seu impacto no chão, melhor. E, de alguma forma, decide que a corrida a pé é algo a ser inventado, considerando que, ninguém mostrou o que andar ou correr é. Ou robôs brincando com histórias infantis e aprender um jeito de colocá-los juntos, colocar um bloco em uma abertura correspondente, e assim por diante E então, eu acho que é realmente interessante que, em tudo isso, é possível aprender. de entrada por sensores, em estado natural até controles, também em estado natural, Por exemplo, os "torques" nos motores. Mas, ao mesmo tempo, é muito interessante que você, possa ter um único algoritmo. Por exemplo, você sabe que impulsão é espontâneo e você pode aprender, pode ter um robô que aprenda a correr, pode ter um robô que aprenda a levantar-se, pode ter, invés de um robô de duas pernas, você pode trocar por um robô de quatro pernas Você executa o mesmo algoritmo de reforço e ele ainda aprende a executar. E então, não há mudança no algoritmo de reforço. É muito genérico. O mesmo que os jogos de Atari. O DQN era o mesmo DQN para todos os jogos. Mas então, quando realmente começa a bater nas fronteiras do que ainda não é possível, bem como é bom aprender a partir do zero para cada uma destas tarefas mas, seria melhor ainda se ele reutilizasse as coisas aprendidas no passado; para aprender ainda mais rapidamente para a próxima a tarefa. E isto é algo que está na fronteira do que ainda não possível. Sempre começa do zero, essencialmente. Quão rapidamente, você acha, que verá a aprendizagem profunda por reforço, implantada nos robôs, à nossa volta, os robôs que estão sendo desenvolvidos no nosso mundo atual? Acho que, na prática o cenário realista é aquele onde começa com o aprendizado supervisionado, comportamento clonado; os humanos fazem o trabalho. E eu acho que vários negócios serão construídos desta forma, onde é um ser humano que está na retaguarda, fazendo um monte de trabalho. Imagine o assistente do Facebook Messenger. Assistente que poderia ser construído com um ser humano na retaguarda fazendo um monte de atividades e a máquina aprendendo, de acordo com que o ser humano faz e começa a dar sugestões para o ser humano, de tal modo que, os humanos tenham um pequeno número de opções e possam apenas clicar e selecionar. E depois, ao longo do tempo, à medida que vai melhorando, você está começando a unir, algum aprendizado por reforço, onde você fornece seus objetivos atuais, Não apenas de modo a corresponder ao ser humano na retaguarda mas, dando objetivos de realização, como, talvez, quão rapidamente, estas duas pessoas foram capazes de planejar sua reunião? Ou, quão rapidamente foram capazes de reservar o seu voo? Ou coisas deste tipo. Quanto tempo levou? O quão contentes ficaram com isto? Mas provavelmente teria que ser reiniciado muitas vezes com o comportamento clonado dos seres humanos, mostrando como poderia ser feito. Então, parece com clonagem comportamental, apenas com a aprendizagem supervisionada para imitar o que as pessoas estão fazendo e então, gradualmente, mais tarde a aprendizagem por reforço para que ele reflita num horizonte de tempo maior? É um resumo adequado? Eu diria que sim. apenas porque, ir do zero à aprendizagem por reforço é realmente divertido de assistir. É super intrigante e poucas coisas são mais divertidas de ver do que o reforço de aprendizagem de um robô, começando do zero e inventando coisas. Mas toma muito tempo e, nem sempre é seguro. Muito obrigado. Foi fascinante. Estou muito contente por termo tido a chance de conversar. Bem, Andrew, obrigado por me receber. Gostei muito. [Tradução: Humberto Souza | Revisão: Carlos Lage]