[NHẠC] Chúng ta hãy lấy các TFIDF này và làm một vài việc thú vị với chúng. Đầu tiên chúng ta sẽ làm bằng tay, ok, hãy để tôi nhập vào đây. Chúng ta sẽ tính bằng tay các khoảng cách giữa mọi người. Mục đích ở đây là để chỉ ra các khoảng cách trông như thế nào, để có cảm giác về những gì chúng ta đang học từ TFIDF. Ví dụ hãy lấy ba người. Chúng ta đã nói về Obama rồi. Chúng ta đã có biến số Obama ở đây. Hãy tạo ra hai biến mới. Chúng ta nói Clinton mà tôi sẽ lựa chọn. Tên của người này giống với Bill Clinton, Tổng thống trước kia của Mỹ. Hãy lựa chọn một người nữa, ví dụ hãy chọn Beckham. Beckham là một người Anh nổi tiếng, cầu thủ bóng đá người Anh và chúng ta sẽ lựa chọn ra người mà tên của họ giống nhau, tên thật của anh ấy là David Beckham. Bây giờ chúng ta đã lựa chọn Clinton và Beckham, hãy tính sự tương đồng giữa hai người, và tổng thống Barack Obama. Những gì chúng ta sẽ làm là đặt câu hỏi. Obama gần với Clinton hơn Beckham phải không? Ok có một lỗi nhỏ ở đây. Obama gần với Clinton hơn Beckham phải không? Bây giờ có nhiều cách để đo sự tương đồng hoặc các khoảng cách giữa hai vectơ, hoặc trong trường hợp này là hai tài liệu. Chúng ta đã tính TFIDF. Việc chúng ta sẽ làm là tính khoảng cách giữa các tài liệu khác nhau, một cái về Clinton, một cái về Obama và vân vân. Tôi sẽ sử dụng ma trận khoảng cách đã được thực hiện bên trong Graphlab Create, vì thế chúng ta không phải thực hiện chúng. Chúng ta cần phải nhìn vào graphlab.distances and ấnTab, bạn sẽ thấy một số lựa chọn ở đây. Khoảng cách Clinton mà chúng ta đã nói, khoảng cách cô sin, sự tương đồng jaccard và vân vân chúng ta sẽ thấy trong suốt chuỗi học này. Chúng ta sẽ sử dụng khoảng cách cô sin. và chỉ giống như một ghi chú nhỉ, thông thường chúng ta nghĩ về sự tương đồng cô sin. Nếu bạn đã nghe về điều này. số càng cao thì sự tương đồng giữa hai bài báo càng nhiều. Ở đây chúng ta có khoảng cách của con số này, vì thế càng thấp càng tốt. Khoảng cách cô sin càng thấp, các bài báo càng gần. Câu hỏi là khoảng cách cô sin giữa tfidf của Obama và Clinton là gì? Nhưng hãy lưu ý rằng tôi đã lựa chọn cột tfidf và tôi phải có số 0 nhỏ ở cuối bởi vì nó là hàng thứ 0 của bảng này. Bảng chỉ có một phần tử trong nó nhưng chúng ta vẫn nói hàng của bảng chúng ta đang thấy. Và chúng ta sẽ so sánh tfidf của Obama với tfidf của Clinton. Cũng ở 0, khoảng cách cô sin và bạn thấy rằng khoảng cách là 0.83. Bây giờ câu hỏi là khoảng cách giữa chúng trong cùng một số liệu trong khoảng cách cô sin giữa Obama và Beckham là gì? Tôi sẽ nhập Obama tfidf, được tính tại 0, với tfidf của Beckham cũng tại 0. Và bạn sẽ thấy khoảng cách này là 0.97. Khoảng cách lớn hơn bạn có là 1.0. Và trong trường hợp này Obama gần với Clinton hơn rất nhiều là với Beckham, điều này có rất nhiều ý nghĩa. Nhưng chúng ta đã làm điều này bằng tay với một vài người, làm thế nào chúng ta làm tự động quá trình tìm ra sự tương đồng giữa các bài báo. Và trong trường hợp này một người giống với người khác như thế nào Trong các bài giảng, Emily đã nói về các mô hình hàng xóm gần nhất và cách chúng có thể được sử dụng cho việc thu hồi tài liệu. Hôm nay chúng ta sẽ thực sự làm một số thao tác thu hồi tài liệu sử dụng mô hình hàng xóm gần nhất. [NHẠC]