[NHẠC] Là một phần của việc sử dụng bộ dữ liệu này, điều đầu tiên chúng ta sẽ làm giống như trong bài học này, chúng ta sẽ xây dựng một vectơ đếm từ. Xây dựng vecto đếm từ cho mỗi một đánh giá. Thông thường bạn phải thực hiện điều này và giải thích những gì liên quan đến đánh giá, tách từ, được gọi là tokenizing, xây dựng vectơ đếm. Nhưng một trong những điều tuyệt vời khi sử dụng các công cụ trong khóa học này là chỉ có một câu lệnh, chúng ta có thể xây dựng vecto đếm từ. Trong products, tôi sẽ thêm một cột mới gọi là word_count, cho việc đếm từ của chúng ta. Nếu bạn chỉ gọi graphlab.text_analytics, đó là một hộp công cụ phân tích văn bản cho một loạt các chức năng, có một cái được gọi là count_words. Chú ý có một cái được gọi là count_ngrams nếu bạn muốn sử dụng bi_grams, tri_grams và vân vân. Và cũng như đầu vào, tôi sẽ đưa các sản phẩm này là frame, nhưng tôi sẽ gọi nó để đếm các từ trong cột đánh giá. Và chúng ta sẽ thực hiện điều đó, nó đã hoàn tất. Bây giờ nếu chúng ta nhìn vào bảng sản phẩm khác, ở đầu bảng bạn sẽ thấy rằng chúng ta có cột thứ tư word_count. Chúng ta sẽ khám phá nhiều hơn nữa. Nhưng bạn thấy với đánh giá đầu tiên bao gồm từ "and" năm lần, "stick" một lần. Có thể đó là lý do nó không phải một đánh giá sản phẩm tốt như các đánh giá khác. [NHẠC]