[NHẠC] Đây là dữ liệu chúng ta đang thực hiện. Nó là một tập dữ liệu khá gọn gàng,
và hãy khám phá nó một chút. Trong các bài giảng, Emily đã nói
về việc xây dựng đếm từ. Và một số thách thức với đếm từ. Chúng ta hãy bắt đầy bằng việc nhìn nhanh
qua các đếm từ của chúng ta. Ví dụ, #Get the word counts for the Obama article. Chúng ta có một bài báo trên
Wikipedia về Barack Obama. Và việc chúng ta sẽ làm đầu tiên
là nhìn nhanh vào đếm từ cho bài báo đó. Tôi sẽ lấy biến Obama này
mà chúng ta đã tạo ra và tôi sẽ thêm cột mới cho
nó gọi là word_count. Điều này sẽ lưu trữ đếm từ
cho Barack Obama. Và chúng ta có thể làm
điều đó bằng cách gọi. Bạn có thể viết, khi chúng ta trình bày trong
 notebook phân loại phân tích cảm tính, bạn có thể viết chức năng tính toán đếm từ. Nhưng chúng ta chỉ có một cái có sẵn
trong hộp công cụ phân tích văn bản. Chúng ta sẽ sử dụng nó để
bắt đầu một cách nhanh chóng. Chúng ta chỉ cần nhập count_words. Hãy xem count_ngrams này, chúng ta sẽ
chỉ đếm các từ trong cùng một đơn vị gram, các từ đơn. Và đầu vào chúng ta sẽ đưa nó nội dung Obama. Tôi đã hoàn thành nó. Hãy nhìn qua thật nhanh. Chúng ta sẽ xuất đếm từ Obama. Và chúng ta có ở đây. Chúng ta đã in ra số từ Obama. Và bạn thấy rằng 'operation' xuất hiện
một lần nữa, 'represent' xuất hiện một lần, 'office' xuất hiện 2 lần, 'unemployed' xuất hiện 1 lần và vân vân các từ khác. Và đó không phải là siêu trực quan. Chúng ta sẽ chơi điều này một chút
và trong quá trình, tôi sẽ chỉ cho bạn một số kỹ thuật nhỏ mà
có thể là hữu ích trong các lĩnh cực khác. Chúng ta sẽ làm bước tiếp theo là
##Sort the word count for tài liệu Obama. Bây giờ ở đây có một số điểu phải hiểu,
nếu bạn chú ý các đếm từ là một quyển từ điển thực sự, nó là một loại từ điển python. Bạn được phát một chìa khóa,
trong trường hợp này, nó là từ. Ví dụ, Honolulu nơi mà ông ấy sinh ra,
thời tiết, hôn nhân và vân vân. Và sau đó ông ấy có giá trị là
1,2,3,5,30 đó là đếm, tần suất xuất hiện các từ là bao nhiêu. Cái mà chúng ta sẽ làm
là phân loại điều này. Và để phân loại các từ, chúng ta phải
chuyển nó thành bảng mà một cột là một từ, chìa khóa của từ điển
và cột thứ hai là đếm. Sau đó chúng ta sẽ phân loại bảng đó. Cách để làm điều này, cách nổi tiếng
để học Python nhưng hãy để tôi chỉ cho bạn mẹo nhỏ
mà bạn sẽ thấy rất hữu ích. Tôi sẽ tạo ra bảng mới gọi là
obama_word_count_table. Cái mà tôi sẽ làm là dùng Obama
này và tôi chỉ cần chọn ở đây, ngoài các cột trong bảng Obama,
tôi sẽ chọn word_count. Bởi vì điều này sẽ in ra
dữ liệu gọn gàng hơn. Nhưng bạn cũng có thể làm
điều đó với toàn bộ bảng. Sau đó tôi sẽ dùng chức năng
được gọi là stack. Chức năng này cực kì hữu ích. Nó lấy 1 cột của SFrame chứa từ điển và xếp chồng lên nhau
một cột thành nhiều cột. Trong trường hợp này, hai cột. Một cột từ và một cột đếm. Chúng ta sẽ xếp một cột cụ thể
gọi là word_count, cột mà chúng ta thực sự quan tâm. Và nó tạo ra các cột mới. Chúng ta phải đặt cho chúng một cái tên. new_column_name, trong trường hợp
có hai trong số chúng. Một cái tôi sẽ gọi là word. Cái kia tôi gọi là count. Và nếu tôi thực hiện điều này,
chúng ta nhìn vào bảng này, Obama word count table.head
chỉ có vài dòng đầu tiên. Bạn sẽ thấy có các từ 'normalize, combat,
sought' nhưng không được sắp xếp. Nó không phải là bảng sắp xếp. Vì thế cái mà chúng ta làm tiếp theo là
 lấy bảng này và sắp xếp theo số lượng. Và chúng ta đã thấy điều này trước đây
nhưng nó khá là đơn giản. Tôi sẽ lấy bảng đếm Obama và
tôi sẽ dùng chức năng sắp xếp. Tôi sẽ sắp xếp nó bằng cột đếm. Sắp xếp bằng số đếm. Và tôi sẽ dùng ascending=false. Thay vì phân loại theo thứ tự
tăng dần 1, 2, 3, như là chúng ta thường làm,
chúng ta sẽ phân loại theo thứ tự giảm dần. 3,2,1. Nếu tôi ấn enter bạn sẽ thấy
từ phổ biến nhất là 'the', sau đó là 'in', 'and', 'of', 'to', 'his',
cuối cùng là 'Obama'. Và 'act', 'a', 'he'. Những từ này không có tính thông tin. Và trong các bài giảng khi chúng ta
học với Emily, cô ấy đã đề cập đến vấn đề các từ không có tính thông tin
có thể làm mất đi các từ quan trọng. Và đó là lý do chúng ta giới thiệu
khái niệm tf-idf. [NHẠC]