[음악] 우리가 이 데이터부터 지능형 파이프라인에 대해 배울 방법은 우리가 실제 응용 프로그램에서 제시하는 방법을 토대로하는 많은 사례들에 대해 연구하는 것입니다. 그리고 그것이야말로 이 코스의 독특한 특징이죠. 우리의 첫 번째 사례 연구에서, 우리는 집의 가치를 예측해 볼 것입니다. 따라서 우리가 파생하고 있는 지능이라는 것은 시장에는 없는 어떤 집과 관련된 가치입니다. 우리는 이것이 가치를 알 지 못하고, 데이터로부터 그것을 배우길 원합니다. 그럼 우리의 데이터는 무엇일까요? 이 경우 우리는 다른 집들을 살펴보고 우리가 관심을 갖고 있는 이 집의 가격을 짐작할 수 있게 해주는 다른 집들의 판매가를 살펴볼 것입니다. 그리고 판매가 외에도 우리는 다른 집들의 다른 기능들에 대해서도 살펴볼 것입니다. 방이 몇 개나 있는지 등에 대해서 말이죠. 방, 평수 등등 말입니다. 그리고 우리가 하게될 것은, 우리의 기계학습 메소드는 집의 판매가에 대한 속성과 관련이 있는 것입니다. 우리가 만약 이 모델을 배울 수 있다면, 우리의 집 레벨의 기능들과 관측된 판매가 사이의 관계를 통해 우리는 이 새 집의 가치를 예측할 수 있습니다. 우리는 이 집의 속성을 가지고 판매가를 예측합니다. 이 메소드를 regression이라고 합니다. 우리의 두 번째 케이스에서는 우리는 특정 레스토랑들에 대한 평가에 대한 감성 분석 작업을 탐구할 것입니다. 예를 들어 이 경우, 스시는 좋았고, 음식은 훌륭했지만, 서비스는 엉망이었다 라고 말할 수 있죠. 그리고 우리는 이 리뷰를 통해 이것이 긍정적인 감성이었는지를 판단할 수 있습니다. 이것이 좋은 리뷰였으면, 엄지를 올리고 부정적인 감성이었을 경우 엄지를 내립니다. 그러면 우리는 어떻게 이것을 할 수 있을까요? 일단 우리는 매우 많은 다른 리뷰들을 살펴볼 것입니다. 따라서 우리는 텍스트로 된 리뷰들과 각 리뷰에 대한 평점을 살펴볼 것입니다. 여기서의 관계가 무엇인지 이해하기 위해서는 이 감성에 대한 분류가 필요하죠. 에를 들어 이 경우, 우리는 이 리뷰의 텍스트 안에서 awesome이라는 단어가 얼마나 나오는지와 awful이라는 단어가 얼마나 나오는지 분석해볼 수 있습니다. 그리고 우리가 가진 다른 리뷰들에서 우리는 이런 단어들의 사용 빈도수의 밸런스를 기반으로 하는 결정 바운더리를 배울 것이고, 이것이 긍정적인 리뷰인지 부정적인 리뷰인지를 판단할 것입니다. 그리고 우리가 이 다른 리뷰들에서 배우는 방법은 텍스트와 관련된 평점을 기반으로 분석하는 것입니다. 이 메소드를 classificaiton 메소드라고 합니다. 우리의 세 번째 케이스에서 우리는 문서 검색 작업을 할 것입니다. 우리가 파생시키는 지능이란 기사 또는 책 등 우리의 독자들의 관심을 끄는 그런 것들을 말합니다. 그리고 우리가 가진 방대한 양의 데이터는 우리가 추천할 수 있는 기사 또는 책들의 콜렉션이라고 할 수 있죠. 이 경우, 우리는 기사와 관련된 그룹을 기반으로 하는 이 데이터의 구조를 알아내려고 노력할 것입니다. 어쩌면 거기에는 스포츠, 세계 뉴스 그리고 엔터테인먼드와 과학과 관련된 기사들의 콜렉션이 있을 수도 있습니다. 그리고 만약 우리가 이 구조를 찾고 코퍼스에 주석을 달면, 우리가 사전에 가질 수 없는 이런 타입의 레이블을 가진 문서들의 콜렉션을 데이터로부터 추론하려고 노력할 것입니다. 그러면 우리는 이것을 사용해서 매우 빠르게 문서 검색을 할 수 있는데 왜냐하면 만약 제가 여기 앉아서 세계 뉴스에 대한 기사를 읽고 있고, 그리고 만약 제가 또 다른 기사를 검색하고 싶을 경우 저는 이미 어떤 기사를 검색할 것인지 알고 있습니다. 이런 접근 방법을 클러스트링이라고 부릅니다. 우리의 네 번째 케이스에서
In our fourth case study, 우리는 callaborative filtering이라고 지난 10여년 간 많은 도메인들에 큰 임팩트를 준 매우 흥미로운 것을 해볼 것입니다. 구체적으로 말하면, 우리는 제품 추천에 대해 살펴볼 것인데, 여러분은 과거의 구매 이력을 살펴보고 그것을 사용해서 여러분이 구매를 원할 만한 다른 제품들에 대한 추천목록을 얻습니다. 이 경우 우리가 제품 추천을 위한 이 지능을 끌어내기 위해 사용할 것은 여러분이 이전에 구매했던 것과 미래에 구매하게 될 것 사이의 관계를 이해하는 것입니다. 그리고 이 작업을 하기 위해 우리는 다른 사용자들의 구매 히스토리를 사용할 것입니다. 그리고 가능하다면, 이 사용자들의 특성들도 말이죠. 하지만 여기서 핵심은 우리는 이 데이터를 가지고 이 소비자와 제품으로 된 매트릭스 안에 배열하는 것인데 여기의 정사각형들은 소비자들이 실제로 구매한 제품들을 나타냅니다. 따라서 그것들은 소비자들에게 인기가 많았던 제품들입니다. 그리고 이 매트릭스에서 우리는 사용자들의 특성과 제품들의 기능들에 대해 배울 것입니다. 그리고 우리가 제가 설명했던 이 데이터 상의 기능들과 사용자들 그리고 제품들에 대해 배우게 되면, 우리는 이러한 특성들을 사용함으로써 사용자들이 좋아하는 것과 사용자들이 좋아하는 것들에 대한 다른 속성들 그리고 그 제품이 실제로 그러한 속성들을 가지고 있는지 등을 알 수 있습니다. 따라서 제가 보여드리는 이 예제에서 사용자는 mom이 될 수 있고 이 사용자는 역시 mom인 다른 사용자들과 매우 유사한 특성들을 갖고 있습니다. 그것으로부터 우리는 제품들에 대해 추론할 수 있습니다. 특정들은 어떤가요? 예를 들어, 아기 용품들은 엄마들의 관심을 받습니다. 그리고 우리는 그 정보를 사용하여 우리의 추천목록을 만들 것입니다. 그리고 이 유형의 접근법은 이 매트릭스에서 시작되는데, 이런 학습된 사용자들의 특성과 제품을 포함한 이 소비자 제품 매트릭스는 matrix factorization이라고 불립니다. 우리의 마지막 케이스에서는, 우리는 시각적 제품 추천에 대해 살펴볼 것입니다. 여기에서 우리의 데이터는 누군가가 웹상으로 가서 텍스트가 아닌 이미지를 입력할 것입니다. 그들은 검은색 신발 또는 검은색 부츠, 하이힐 아니면 운동화와 같은 것들의 이미지를 입력할 것입니다. 그리고 그들이 원하는 것은 그들이 흥미를 가질 만한 신발들에 대한 검색 결과입니다. 그들이 가진 신발들과 유사한 시각적 이미지를 가진 신발들을 말하죠. 그리고 그들은 이 아이템을 구매하기 위해 그것들을 검색하길 원합니다. 그리고 우리는 이미지에서 관련된 이미지들의 세트로 가기 위해 그 이미지에 대한 매우 좋은 특성들을 가져야만 그것과 유사한 다른 이미지들을 찾을 수 있습니다. 그리고 우리가 이 구체적인 특성들을 끌어내기 위한 방법을 딥러닝이라고 부릅니다. 따라서 우리는 각각의 레이어가 좀 더 서술적인 특성들을 제공하는 신경망 네트워커ㅡ에 대해 알아볼 것입니다. 여기 우리가 보고 있는 예제에서, 첫 번째 레이어는 그저 모서리 등이 다른 이미지들을 그저 인식합니다. 두 번째 레이어로 가면 우리는 코너와 같이 좀 더 흥미로운 특성들에 대해 감지하기 시작합니다. 그리고 점점 레이어의 깊숙히 들어가면, 여러분은 좀 더 복잡한 특성들에 대해 알게 되죠. 보시는 것처럼, 우리는 현실에서의 케이스 학습, 현실적인 문제들에 대한 해답을 찾기 위해 기계학습을 사용하고 있습니다. 그리고 이것을 통해 우리는 좀 더 많은 파워를 가진 메소드들을 발견해 갈 것입니다. 그리고 이것은 여러분이 우리가 이전에 학습하지 못했던 새로운 문제들에 대한 새로운 기계학습 기술들을 개발할 수 있도록 해줍니다. 하지만 케이스 학습은 우리가 이것들을 해석할 수 있도록 설명할 수 있게 방법을 연마할 수 있도록 해줍니다. [음악]