1 00:00:00,000 --> 00:00:04,733 [NHẠC] 2 00:00:04,733 --> 00:00:08,220 Đây là dữ liệu chúng ta đang thực hiện. 3 00:00:08,220 --> 00:00:14,160 Nó là một tập dữ liệu khá gọn gàng, và hãy khám phá nó một chút. 4 00:00:14,160 --> 00:00:18,104 Trong các bài giảng, Emily đã nói về việc xây dựng đếm từ. 5 00:00:18,104 --> 00:00:21,020 Và một số thách thức với đếm từ. 6 00:00:21,020 --> 00:00:24,500 Chúng ta hãy bắt đầy bằng việc nhìn nhanh qua các đếm từ của chúng ta. 7 00:00:24,500 --> 00:00:30,840 Ví dụ, #Get the word 8 00:00:30,840 --> 00:00:36,010 counts for the Obama article. 9 00:00:36,010 --> 00:00:38,810 Chúng ta có một bài báo trên Wikipedia về Barack Obama. 10 00:00:38,810 --> 00:00:42,280 Và việc chúng ta sẽ làm đầu tiên là nhìn nhanh vào đếm từ cho 11 00:00:42,280 --> 00:00:43,790 bài báo đó. 12 00:00:43,790 --> 00:00:48,090 Tôi sẽ lấy biến Obama này mà chúng ta đã tạo ra và 13 00:00:48,090 --> 00:00:52,930 tôi sẽ thêm cột mới cho nó gọi là word_count. 14 00:00:52,930 --> 00:00:57,240 Điều này sẽ lưu trữ đếm từ cho Barack Obama. 15 00:00:57,240 --> 00:00:59,840 Và chúng ta có thể làm điều đó bằng cách gọi. 16 00:00:59,840 --> 00:01:05,770 Bạn có thể viết, khi chúng ta trình bày trong notebook phân loại phân tích cảm tính, 17 00:01:05,770 --> 00:01:08,960 bạn có thể viết chức năng tính toán đếm từ. 18 00:01:08,960 --> 00:01:12,940 Nhưng chúng ta chỉ có một cái có sẵn trong hộp công cụ phân tích văn bản. 19 00:01:12,940 --> 00:01:16,080 Chúng ta sẽ sử dụng nó để bắt đầu một cách nhanh chóng. 20 00:01:16,080 --> 00:01:18,247 Chúng ta chỉ cần nhập count_words. 21 00:01:18,247 --> 00:01:22,409 Hãy xem count_ngrams này, chúng ta sẽ chỉ đếm các từ trong cùng một đơn vị gram, 22 00:01:22,409 --> 00:01:23,193 các từ đơn. 23 00:01:23,193 --> 00:01:28,109 Và đầu vào chúng ta sẽ 24 00:01:28,109 --> 00:01:32,407 đưa nó nội dung Obama. 25 00:01:32,407 --> 00:01:34,750 Tôi đã hoàn thành nó. 26 00:01:34,750 --> 00:01:37,048 Hãy nhìn qua thật nhanh. 27 00:01:37,048 --> 00:01:42,781 Chúng ta sẽ xuất đếm từ Obama. 28 00:01:44,770 --> 00:01:45,280 Và chúng ta có ở đây. 29 00:01:45,280 --> 00:01:48,230 Chúng ta đã in ra số từ Obama. 30 00:01:48,230 --> 00:01:53,630 Và bạn thấy rằng 'operation' xuất hiện một lần nữa, 'represent' xuất hiện một lần, 31 00:01:53,630 --> 00:01:59,360 'office' xuất hiện 2 lần, 'unemployed' xuất hiện 1 lần và vân vân các từ khác. 32 00:01:59,360 --> 00:02:01,530 Và đó không phải là siêu trực quan. 33 00:02:01,530 --> 00:02:05,570 Chúng ta sẽ chơi điều này một chút và trong quá trình, tôi sẽ chỉ 34 00:02:05,570 --> 00:02:12,010 cho bạn một số kỹ thuật nhỏ mà có thể là hữu ích trong các lĩnh cực khác. 35 00:02:12,010 --> 00:02:17,904 Chúng ta sẽ 36 00:02:17,904 --> 00:02:25,212 làm bước tiếp theo là ##Sort the word count for 37 00:02:25,212 --> 00:02:29,233 tài liệu Obama. 38 00:02:30,850 --> 00:02:34,460 Bây giờ ở đây có một số điểu phải hiểu, nếu bạn chú ý các đếm từ 39 00:02:34,460 --> 00:02:37,620 là một quyển từ điển thực sự, nó là một loại từ điển python. 40 00:02:37,620 --> 00:02:40,780 Bạn được phát một chìa khóa, trong trường hợp này, nó là từ. 41 00:02:40,780 --> 00:02:46,400 Ví dụ, Honolulu nơi mà ông ấy sinh ra, thời tiết, hôn nhân và vân vân. 42 00:02:46,400 --> 00:02:51,380 Và sau đó ông ấy có giá trị là 1,2,3,5,30 đó là đếm, 43 00:02:51,380 --> 00:02:53,320 tần suất xuất hiện các từ là bao nhiêu. 44 00:02:53,320 --> 00:02:57,790 Cái mà chúng ta sẽ làm là phân loại điều này. 45 00:02:57,790 --> 00:03:02,400 Và để phân loại các từ, chúng ta phải chuyển nó thành bảng mà một cột 46 00:03:02,400 --> 00:03:06,670 là một từ, chìa khóa của từ điển và cột thứ hai là đếm. 47 00:03:06,670 --> 00:03:08,550 Sau đó chúng ta sẽ phân loại bảng đó. 48 00:03:08,550 --> 00:03:12,470 Cách để làm điều này, cách nổi tiếng để học Python nhưng 49 00:03:12,470 --> 00:03:16,600 hãy để tôi chỉ cho bạn mẹo nhỏ mà bạn sẽ thấy rất hữu ích. 50 00:03:16,600 --> 00:03:23,327 Tôi sẽ tạo ra bảng mới gọi là obama_word_count_table. 51 00:03:23,327 --> 00:03:29,258 Cái mà tôi sẽ làm là dùng Obama này và tôi chỉ cần chọn ở đây, 52 00:03:29,258 --> 00:03:35,883 ngoài các cột trong bảng Obama, tôi sẽ chọn word_count. 53 00:03:35,883 --> 00:03:40,030 Bởi vì điều này sẽ in ra dữ liệu gọn gàng hơn. 54 00:03:40,030 --> 00:03:42,540 Nhưng bạn cũng có thể làm điều đó với toàn bộ bảng. 55 00:03:42,540 --> 00:03:45,240 Sau đó tôi sẽ dùng chức năng được gọi là stack. 56 00:03:47,070 --> 00:03:48,880 Chức năng này cực kì hữu ích. 57 00:03:48,880 --> 00:03:53,700 Nó lấy 1 cột của SFrame chứa từ điển và 58 00:03:53,700 --> 00:03:56,330 xếp chồng lên nhau một cột thành nhiều cột. 59 00:03:56,330 --> 00:03:57,290 Trong trường hợp này, hai cột. 60 00:03:57,290 --> 00:03:59,460 Một cột từ và một cột đếm. 61 00:03:59,460 --> 00:04:03,984 Chúng ta sẽ xếp một cột cụ thể gọi là word_count, 62 00:04:03,984 --> 00:04:07,240 cột mà chúng ta thực sự quan tâm. 63 00:04:07,240 --> 00:04:10,710 Và nó tạo ra các cột mới. 64 00:04:10,710 --> 00:04:14,270 Chúng ta phải đặt cho chúng một cái tên. 65 00:04:14,270 --> 00:04:21,110 new_column_name, trong trường hợp có hai trong số chúng. 66 00:04:21,110 --> 00:04:23,440 Một cái tôi sẽ gọi là word. 67 00:04:23,440 --> 00:04:26,900 Cái kia tôi gọi là count. 68 00:04:28,320 --> 00:04:32,946 Và nếu tôi thực hiện điều này, chúng ta nhìn vào bảng này, 69 00:04:32,946 --> 00:04:38,870 Obama word count table.head chỉ có vài dòng đầu tiên. 70 00:04:38,870 --> 00:04:45,420 Bạn sẽ thấy có các từ 'normalize, combat, sought' nhưng không được sắp xếp. 71 00:04:45,420 --> 00:04:46,840 Nó không phải là bảng sắp xếp. 72 00:04:46,840 --> 00:04:51,820 Vì thế cái mà chúng ta làm tiếp theo là lấy bảng này và sắp xếp theo số lượng. 73 00:04:51,820 --> 00:04:55,330 Và chúng ta đã thấy điều này trước đây nhưng nó khá là đơn giản. 74 00:04:55,330 --> 00:05:01,320 Tôi sẽ lấy bảng đếm Obama và tôi sẽ dùng chức năng sắp xếp. 75 00:05:01,320 --> 00:05:04,502 Tôi sẽ sắp xếp nó bằng cột đếm. 76 00:05:04,502 --> 00:05:05,810 Sắp xếp bằng số đếm. 77 00:05:05,810 --> 00:05:09,541 Và tôi sẽ dùng ascending=false. 78 00:05:09,541 --> 00:05:13,227 Thay vì phân loại theo thứ tự tăng dần 1, 2, 3, 79 00:05:13,227 --> 00:05:16,998 như là chúng ta thường làm, chúng ta sẽ phân loại theo thứ tự giảm dần. 80 00:05:16,998 --> 00:05:18,564 3,2,1. 81 00:05:18,564 --> 00:05:23,179 Nếu tôi ấn enter bạn sẽ thấy từ phổ biến nhất là 'the', 82 00:05:23,179 --> 00:05:28,331 sau đó là 'in', 'and', 'of', 'to', 'his', cuối cùng là 'Obama'. 83 00:05:28,331 --> 00:05:31,222 Và 'act', 'a', 'he'. 84 00:05:31,222 --> 00:05:33,881 Những từ này không có tính thông tin. 85 00:05:33,881 --> 00:05:40,042 Và trong các bài giảng khi chúng ta học với Emily, cô ấy đã đề cập đến vấn đề 86 00:05:40,042 --> 00:05:45,073 các từ không có tính thông tin có thể làm mất đi các từ quan trọng. 87 00:05:45,073 --> 00:05:48,695 Và đó là lý do chúng ta giới thiệu khái niệm tf-idf. 88 00:05:48,695 --> 00:05:53,869 [NHẠC]