[음악] 이 코스에서는 우리는 다양한 기계학습 메소드와 이런 유형들의 메소드를 임팩트 있게 사용하는 많은 응용 프로그램들에 대해서 이야기했습니다. 하지만 물론, 기계학습에는 여전히 남아있는 과제들이 있죠. 그것들의 일부에 대해 한번 논의해보죠. 그 중 하나는 우리가 종종 어떤 모델을 사용할 것인가에 대한 선택을 해야 한다는 것입니다. 예를 들어, 우리가 제품 추천에 대해 이야기했을 때, 우리는 classification 모델을 사용할 수 있다고 말합니다. 우리가 사용자와 제품의 특성들을 가지고 이것을 이 분류법에 패스시키면 이것은 이 사람이 이 제품을 좋아할 것인지 싫어할 것인지에 대해 네 또는 아니오로 대답합니다. 하지만 우리는 또한 우리가 사용자들과 제품들의 특성들에 대해 배우고 그것을 사용해서 사용자들에게 제품을 추천하는 matrix factorization에 대해 이야기했습니다. 그리고 우리는 또한 featurized matrix factorization을 통해, 이 두 개의 아이디어들, 가능한 모델들의 흔한 리스트를 우리는 업무가 매우 큰 것을 고려할 수 있습니다. 따라서 일반적으로 이것은 전문직 종사자들을 당혹스럽게 만들었습니다. 어떤 모델을 사용할 것이고 가능한 선택들에 대한 검색은 여전히 기계학습에서 남아있는 과제입니다. 우리가 직면하게 되는 또 다른 중요한 과제는 우리의 데이터를 어떻게 표현할 것인가 입니다. 예를 들어, 우리가 우리의 문서 모델링에 대해 이야기했을 때, 우리의 문서 검색 업무에서 우리는 raw word counts를 사용할 수 있다고 하거나 벡터를 일반화할 수 있다고 이야기했죠. 우리는 tf-idf와 같은 것을 사용해서 매우 인기있는 단어들을 골라내거나, 문서 내의 중요한 단어들을 강조할 수 있었습니다. 하지만 솔직히 말해서, 거기에는 많은 다른 종류의 tf-idf가 있고, 우리는 그 중 하나를 이것을 하기 위한 예시로 제공했습니다. 여러분은 또한 BiTrams와 trigrams를 사용하는 것에 대해 생각할 수 있고, 거기에는 우리가 문서에 등장하는 단어들을 표현할 수 있는 다양한 방법들이 있습니다. 그것은 우리의 관심의 데이터 세트로, 우리는 이것을 표현하길 원하죠. 하지만 그것은 그저 문서일 뿐입니다. 그러면 우리는 어쩌면 이미지들을 가지고 있습니다. 우리는 이미지를 어떻게 표현해야 할까요? 우리는 이미 몇 가지 방법들에 대해 이야기했죠. 우리는 다른 것들에 대해 이야기할 것이지만, 거기에는 많은 어려움이 있습니다. 여러분이 네트워크에 기반하는 데이터를 가졌다면, 페이스북과 같은 것 말이죠. 따라서 여러분은 매우 복잡한 데이터 구조를 가질 수 있고, 동시에 매우 다른 데이터 세트를 가질 수 있습니다. 우리는 우리가 설명했던 유형들의 메소드를 사용할 수 있게 되기를 바랍니다. 그럼 어떻게 우리의 데이터를 표현할 것인가, 물론 이것은 우리가 데이터에 만드는 추론들의 유형에 대해 중요한 영향을 줄 수 있습니다. 이것은 매우 중요한 문제이고 거기에는 여러분의 데이터에 대한 올바른 표현법을 선택할 수 있게 해주는 메소드는 없습니다. 오늘날 우리가 기계학습에서 마주하는 매우 중요한 과제 중 하나는 multiple dimensions들을 어떻게 스케일업 할 것이냐 입니다. 이것의 한 측면은 데이터는 점점 더 커지고 있다는 점입니다. 이것은 미디어에서 광범위하게 거론되고 있는 부분이죠. 그럼 우리가 점점 거대해지는 데이터에 의해 직면하게 되는 일부 상황들에 대해 이야기해보죠. 한 가지 사실은 거기에는 매우 다양한 플랫폼들이 존재하고, 소셜 네트워킹과 같이, 그리고 이것은 크라우드소싱을 통해 데이터를 수집하고 있습니다. 여러분의 사진들이나 영상들을 공유하게 되는 것과 같이 말이죠. 그리고 레스토랑들을 리뷰하거나 여러분이 온라인에서 갈 수 있는 방법의 리스트 그리고 계속해서 자라고 있는 세상에 데이터를 던져줍니다. 그리고 이런 것들을 하는 사람들 그리고 이를 통헤 제공되는 데이터는 점점 더 거대해지고 있습니다. 우리는 우리에게 허용된 새로운 데이터 소스들을 매우 많이 가지고 있죠. 게다가, 물건들을 구매하는 것에 대해 우리가 생각하는 방식은, 우리가 물건을 구매할 때, 이제는 더 이상 상점으로 가서 그것들에 대한 것을 손으로 적는 것이 아닙니다. 이제 우리는 아마존과 같은 거대한 온라인 시장을 통해 각기 다른 제품들에 대한 정보를 수집하고 각기 다른 방법으로 구매가 이루어지며, 다양하고 방대한 데이터 소스가 교류합니다. 그리고 이런 유형의 웹사이트들 외에도 거기에는 우리가 작용할 수 있는 다양한 디바이스들이 있죠. 따라서 거기에는 제가 착용할 수 있는 웨어러블 디바이스들, 제가 하고 모든 행동들을 모니터하고 제가 밤에 어떻게 자는지 등을 모니터하는 시계가 있습니다. 저는 제가 보는 모든 것들을 녹화하는 안경을 착용할 수 있죠. 저는 또한 다양한 디바이스들이 연결되어 다양한 정보들의 소스를 공유함으로써 서로 소통하는 사물인터넷에 대해서도 이야기 할 수 있습니다. 다양한 정보들의 소스를 공유함으로써 서로 소통하는 이것들은 우리가 자주 보고 다양한 새로운 데이터 소스들을 가지지만, 물론 철저하게 완벽한 단계는 아닙니다. 우리는 또한 병력과 같은 것에 대해서도 말할 수 있습니다. 여러분은 이제 더 이상 의사의 사무실을 찾아가서 그들이 손으로 노트를 적고 그것들을 파일에 넣게 할 필요가 없죠. 종종 그들은 전자건강기록을 사용하고, 이것들은 이제 시스템상에서 소통하며 우리는 데이터 소스가 분석되고 이해된 후 약품조제로 연결되는 것을 자주 보게 됩니다. 방대한 새로운 데이터 세트는 매우 신이납니다.. 우리는 사람들이 어떻게 그들의 몸을 가동하고, 어떻게 구매하고, 친구들을 만들고, 하루 하루 어떤 행동들을 하는지에 대해 배우죠. 하지만 물론 이런 타입의 데이터들을 분석하는 메소드가 필요하고, 또한 현재의 데이터 세트에 존재하는 고유한 데이터 구조도 필요합니다. 그리고 noisy한 구조, 그리고 과제 리스트들은 아주 광범위하죠. 이것은 기계학습에서 매우 큰 과제 중 하나인데, 이 방대한 데이터에 대해 어떻게 대처하느냐 입니다. 그리고 데이터가 방대해짐과 동시에, 우리는 또한 우리가 이것들을 분석하는데 사용하는 모델들이 점점 더 복잡한 데이터 세트를 분석해야 하는 과제에 직면하고 있습니다. 따라서 모델들 역시 점점 방대해지고 있고 이것들로부터 정보를 추출하기 위해 점점 복잡해지고 있습니다. 저는 그것이 단어인지는 모르겠지만, 여러분은 제 포인트를 알겁니다. 이런 배우 복잡한 데이터 소스들은 매우 방대한 데이터 소스들이죠. 예를 들어, 우리가 클러스트링에 대해 이야기 했을 때, 우리는 이것에 대해 이야기 했었죠, 응용 프로그램, 뇌의 활동을 기록하는 것, 이것은 그저 한 파트입니다. 이것은 이 유형의 데이터를 분석하기 위한 모델의 한 예이며, 이 슬라이드에서 보여주는 구체적인 내용들은 포함하지 않습니다. 그저 이것들은 많은 원들 그리고 화살들이라고 생각하세요. 그리고 그것은 이것이 매우 복잡하고 큰 모델이라는 것을 의미합니다. 여러분은 어쩌면, 데이터는 점점 커지고, 모델들도 점점 커지지만 프로세서도 점점 빨라지기 때문에 괜찮다고 생각할 수 있습니다. 그것은 조금 지난 이야기입니다. 우리는 한동안 이런 프로세스들의 속도가 기하급수적으로 증가해온 것을 보았습니다. 하지만 그것은 약 10여년전 멈추었죠. 그리고 이제 우리는 개별의 프로세서들의 속도가 미미하게 증가하는 것을 보고 있습니다. 따라서 대신에 우리는 스케일업을 위한 새로운 방법을 생각해야 합니다. 그리고 우리가 오늘날 레버리징 하는 일반적인 것은 프로세서들의 콜렉션입니다. 거기에는 다른 아키텍쳐가 있습니다. 우리는 GPU, multicore, 클러스터 그리고 클라우드 컴퓨팅 리소스 등과 같은 것들을 가졌고, 매우 세련되고 비싼 슈퍼 컴퓨터들을 가졌습니다. 멋진 일이죠. 이것들 매우 강력하거나 잠재적으로 강력한 컴퓨팅 리소스를 가지고 있죠. 하지만 여기서 질문은 우리가 이것을 기계학습에서 어떻게 사용할 수 있는가 입니다. 그리고 기계학습에서 우리는 직면하고 있는 과제들이 있습니다. 하나는 여기에서 기계학습을 빼고 이것들을 어떻게 각기 다른 프로세서에 분배해서 우리가 원하는 방향으로 모든 것들을 실행할 지 이며, 이것은 매우 어려운 일이죠. 또 다른 과제는 우리가 어떻게 각기 다른 기계들에 데이터를 분배하고 각각의 기계에서 우리가 가질 수 있는 실패 가능성을 줄이면서 이런 작업들을 할 것인가 입니다. 따라서 이것들은 우리가 기계학습에서 직면하고 있는 문제의 숫자를 표현합니다. 그리고 수 많은 신나는 리서치들이 이런 문제들을 해결하기 위해 생겨나고 있습니다. [음악]