[NHẠC] Và như vậy, chúng ta hãy cùng tính TF/IDF. Bây giờ tôi không thể tính toán TF/IDF và đây là lưu ý quan trọng. Không thể chỉ tính toán TF/IDF cho bài báo về Obama riêng biệt bởi vì tf/idf phụ thuộc vào toàn bộ tài nguyên. Bạn cần chuẩn hóa số lần một từ xuất hiện trong mỗi bài báo. Vì vậy tôi phải chỉ ra tôi đã tính toán toàn bộ dữ liệu. Hãy tiếp tục làm điều đó. Ở đây, tôi sẽ tính toán TF/IDF cho toàn bộ tài nguyên. Và tôi sẽ làm điều này trong hai bước. Đầu tiên tôi sẽ tính các đếm từ cho toàn bộ tập tài nguyên. Vậy tôi sẽ thêm một cột mới vào bảng people gọi là word_count. Nhớ rằng chúng ta đã làm điều này chỉ cho Barack Obama, bây giờ chúng ta sẽ làm với mọi người. Tôi sẽ sử dụng graphlab.text_analytics.count_words và tôi sẽ đặt vào đầu vào, là cột nội dung. Nói cách khác tôi sẽ tính các từ trong cột nội dung. Và để chúng ta rõ ràng. Sau đó bạn chỉ cần xuất SFrame people sau khi chúng ta làm điều này, tôi sẽ xuất một số dòng đầu tiên của SFrame đó. Ở đây, chúng ta đã thực hiện. Bây giờ chúng ta có cột URI, vị trí, trang web, tên người, nội dung và chúng ta có từ điển về các đếm từ bên phải, cột mới. Tốt, tiếp theo chúng ta sẽ tính toán TF/IDFs. Giống như các đếm từ, bạn có thể thực hiện hệ thống TF/IDF của bạn, nó sẽ mất một chút thời gian để làm. Graphlocate đã được thực hiện rồi và chúng ta chỉ cần sử dụng để làm cho toàn bộ quá trình này một cách nhanh chóng, chúng ta sẽ sử dụng graphlab.text_analytics. Giống như với đếm từ, có một chức năng ở đây, tf_idf. Và tất cả những gì bạn cần làm là đưa dữ liệu đầu vào, như là chúng ta sẽ đưa ra trong đầu vào của word_count. word_count, nó sẽ xuất ra TF/IDF. Hãy để tôi chỉ cho bạn một lần nữa nó trông như thế nào. Oops, tôi đã làm một lỗi nhỏ ở đây. Cái đó sẽ là word_count. Không phải là word_counts. Và bây giờ tôi sẽ xem toàn bộ tài nguyên với 50,000 tài liệu. Tính toán tần số của các từ, chuẩn hóa. Và khi kết thúc chúng ta có một bảng cho mọi tài liệu, gọi là bảng docs, nó có một từ điển của TF/IDF cho mỗi một tài liệu. Và chỉ để chúng ta lấy được tất cả những thứ này, tôi sẽ thêm một cột mới. Với bảng people, và cột mới này sẽ được gọi là tfidf, tôi sẽ chỉ lưu trữ vào đây, tfidf mà tôi đã tính toán. Tất cả trong một bảng, và nó là cột docs. Đây chúng ta có ở đây. Chúng ta chỉ vừa thêm nó vào. Bây giờ chúng ta có tfidf cho mỗi tài liệu cái được tính toán và lưu trữ trong đó. Hãy làm một vài kiểm tra. Đây là cái mà chúng ta sẽ làm, chúng ta sẽ kiểm ta TF-IDF cho tài liệu Obama. Giống như chúng ta đã kiểm tra và phân loại các đếm từ, chúng ta sẽ không kiểm tra việc sắp xếp các ý tưởng TF. Tôi sẽ đọc lại các biến số cho Obama, bởi vì chúng ta đã thêm hai cột mới trong phiên bản mới nhất. Tôi sẽ lấy people, và tôi sẽ chọn ra người mà tên của họ cũng là Barack Obama. Ok tôi đã làm xong, tôi đã tạo ra Obama này và bây giờ giống như chúng ta đã làm với các đếm từ, tôi sẽ tạo một obama_tfidf_tabl để chúng ta có thể sắp xếp nó. Nó là một từ điển. Chúng ta sẽ sắp xếp chính xác như cách chúng ta đã làm trước đây. Chúng ta sẽ xếp chồng sau đó sắp xếp. Và chúng ta sẽ làm điều này. Thực sự thay vì tạo một bảng, tôi sẽ chỉ làm nó trong một dòng. Oops, tôi sẽ làm nó trong một dòng ở đây. Tôi sẽ viết ra cái mà chúng ta đã làm, vì thế tôi sẽ chỉ lấy biến số obama và khi mà tôi chỉ lựa chọn cột tfidf nó trông khá hơn một chút. Sau đó tôi sẽ dùng phương pháp xếp chồng, lấy từ điển và xếp nó vào hai cột. Tôi sẽ xếp chồng các tfidf. Và tôi sẽ xuất ra tên cột mới và các tên sẽ là từ và tfidf, để tôi chỉ cho bạn điều này. Ồ tôi quên đóng, ấn vào đây. Để tôi chỉ cho bạn mẹo nhỏ mà bạn có thể sử dụng với python trong những cách khác nhau. Tôi sẽ chỉ cần dùng chuỗi bình luận ở cuối của cái này. Tôi sẽ gõ .sort. Và tôi sẽ phân loại đầu ra này trên cột tfidf. Và tôi sẽ dùng ascending=false. Cái mà tôi đã làm trong các dòng trước, bây giờ tôi đang làm chỉ trong một dòng. Tôi sẽ lấy cột obama tfidf. Tôi sẽ xếp nó vào cột từ, cột tfidf và bây giờ tôi sẽ sắp xếp theo trình tự giảm dần. Từ cao nhất xuống thấp nhất. Nếu bạn còn nhớ, trước khi chúng ta chạy cái này. Khi mà chúng ta đã làm điều này với đếm từ như thế này. Có từ phổ biến nhất 'in, and, of', rồi 'to, his, obama, act, a, he'. Những từ này gần như là không có tính thông tin với từ Obama. Hãy thực hiện TF-IDF. Cái mà chúng ta thấy ở đây, từ có tính thông tin nhất là Obama có rất nhiều ý nghĩa bởi vì các bài báo là về ông ấy. Nhưng sau đó bạn có 'art, Iraq, control, law, ordered, military, involvement, response, democratic, as in Democratic Party.' Bạn thấy đó có rất nhiều hoạt động diễn ra ở đây Các từ đó rất quan trọng với sự kính trọng với Obama. [NHẠC]