[NHẠC] Và như vậy, chúng ta hãy cùng tính TF/IDF. Bây giờ tôi không thể tính toán TF/IDF
và đây là lưu ý quan trọng. Không thể chỉ tính toán TF/IDF cho bài báo về Obama riêng biệt bởi vì
tf/idf phụ thuộc vào toàn bộ tài nguyên. Bạn cần chuẩn hóa số lần
một từ xuất hiện trong mỗi bài báo. Vì vậy tôi phải chỉ ra tôi đã
tính toán toàn bộ dữ liệu. Hãy tiếp tục làm điều đó. Ở đây, tôi sẽ tính toán TF/IDF cho toàn bộ tài nguyên. Và tôi sẽ làm điều này trong hai bước. Đầu tiên tôi sẽ tính các đếm từ
cho toàn bộ tập tài nguyên. Vậy tôi sẽ thêm một cột mới vào
bảng people gọi là word_count. Nhớ rằng chúng ta đã làm điều này chỉ cho
Barack Obama, bây giờ chúng ta sẽ làm với mọi người. Tôi sẽ sử dụng
graphlab.text_analytics.count_words và tôi sẽ đặt vào đầu vào, là cột nội dung. Nói cách khác tôi sẽ tính
các từ trong cột nội dung. Và để chúng ta rõ ràng. Sau đó bạn chỉ cần xuất SFrame people
sau khi chúng ta làm điều này, tôi sẽ xuất một số dòng
đầu tiên của SFrame đó. Ở đây, chúng ta đã thực hiện. Bây giờ chúng ta có cột URI,
vị trí, trang web, tên người, nội dung và chúng ta có từ điển
về các đếm từ bên phải, cột mới. Tốt, tiếp theo chúng ta
sẽ tính toán TF/IDFs. Giống như các đếm từ, bạn có thể
thực hiện hệ thống TF/IDF của bạn, nó sẽ mất một chút thời gian để làm. Graphlocate đã được thực hiện rồi và chúng ta chỉ cần sử dụng để làm cho toàn bộ
quá trình này một cách nhanh chóng, chúng ta sẽ sử dụng
graphlab.text_analytics. Giống như với đếm từ, có một
chức năng ở đây, tf_idf. Và tất cả những gì bạn cần làm
là đưa dữ liệu đầu vào, như là chúng ta sẽ đưa ra
trong đầu vào của word_count. word_count, nó sẽ xuất ra TF/IDF. Hãy để tôi chỉ cho bạn một lần
nữa nó trông như thế nào. Oops, tôi đã làm một lỗi nhỏ ở đây. Cái đó sẽ là word_count. Không phải là word_counts. Và bây giờ tôi sẽ xem toàn bộ
tài nguyên với 50,000 tài liệu. Tính toán tần số của các từ, chuẩn hóa. Và khi kết thúc chúng ta có một bảng
cho mọi tài liệu, gọi là bảng docs, nó có một từ điển của TF/IDF
cho mỗi một tài liệu. Và chỉ để chúng ta lấy được tất cả
những thứ này, tôi sẽ thêm một cột mới. Với bảng people, và cột mới này
sẽ được gọi là tfidf, tôi sẽ chỉ lưu trữ vào đây,
tfidf mà tôi đã tính toán. Tất cả trong một bảng, và nó là cột docs. Đây chúng ta có ở đây.
Chúng ta chỉ vừa thêm nó vào. Bây giờ chúng ta có tfidf cho mỗi tài liệu
cái được tính toán và lưu trữ trong đó. Hãy làm một vài kiểm tra. Đây là cái mà chúng ta sẽ làm, chúng ta sẽ kiểm ta TF-IDF cho tài liệu Obama. Giống như chúng ta đã kiểm tra
và phân loại các đếm từ, chúng ta sẽ không kiểm tra
việc sắp xếp các ý tưởng TF. Tôi sẽ đọc lại các biến số cho Obama, bởi vì chúng ta đã thêm hai
cột mới trong phiên bản mới nhất. Tôi sẽ lấy people, và tôi sẽ
chọn ra người mà tên của họ cũng là Barack Obama. Ok tôi đã làm xong, tôi đã tạo ra Obama này
và bây giờ giống như chúng ta đã làm với các đếm từ, tôi sẽ tạo một obama_tfidf_tabl
để chúng ta có thể sắp xếp nó. Nó là một từ điển. Chúng ta sẽ sắp xếp chính xác như
cách chúng ta đã làm trước đây. Chúng ta sẽ xếp chồng sau đó sắp xếp. Và chúng ta sẽ làm điều này. Thực sự thay vì tạo một bảng,
tôi sẽ chỉ làm nó trong một dòng. Oops, tôi sẽ làm nó trong một dòng ở đây. Tôi sẽ viết ra cái mà chúng ta đã làm, vì thế tôi sẽ chỉ lấy biến số obama và khi mà tôi chỉ lựa chọn cột tfidf
nó trông khá hơn một chút. Sau đó tôi sẽ dùng phương pháp
xếp chồng, lấy từ điển và xếp nó vào hai cột. Tôi sẽ xếp chồng các tfidf. Và tôi sẽ xuất ra tên cột mới và các tên sẽ là từ và tfidf, để tôi chỉ cho bạn điều này. Ồ tôi quên đóng, ấn vào đây. Để tôi chỉ cho bạn mẹo nhỏ mà bạn
có thể sử dụng với python trong những cách khác nhau. Tôi sẽ chỉ cần dùng chuỗi
bình luận ở cuối của cái này. Tôi sẽ gõ .sort. Và tôi sẽ phân loại đầu ra này trên cột tfidf. Và tôi sẽ dùng ascending=false. Cái mà tôi đã làm trong các dòng trước,
bây giờ tôi đang làm chỉ trong một dòng. Tôi sẽ lấy cột obama tfidf. Tôi sẽ xếp nó vào cột từ, cột tfidf và bây giờ tôi sẽ sắp xếp
theo trình tự giảm dần. Từ cao nhất xuống thấp nhất. Nếu bạn còn nhớ, trước khi
chúng ta chạy cái này. Khi mà chúng ta đã làm điều này
với đếm từ như thế này. Có từ phổ biến nhất 'in, and, of', rồi 'to, his, obama, act, a, he'. Những từ này gần như là
không có tính thông tin với từ Obama. Hãy thực hiện TF-IDF. Cái mà chúng ta thấy ở đây, từ có
tính thông tin nhất là Obama có rất nhiều ý nghĩa bởi vì
các bài báo là về ông ấy. Nhưng sau đó bạn có
'art, Iraq, control, law, ordered, military, involvement, response,
democratic, as in Democratic Party.' Bạn thấy đó có rất nhiều
hoạt động diễn ra ở đây Các từ đó rất quan trọng với sự kính trọng với Obama. [NHẠC]