[NHẠC] Hãy cùng huấn luyện bộ phân loại cảm tính. Và chúng ta sẽ làm điều này trong hai bước. Đầu tiên, chúng ta sẽ làm một bước chia tách dữ liệu thành tập huấn luyện và kiểm tra. Tôi sẽ tính toán dữ liệu huấn luyện. Chúng ta sẽ chia dữ liệu thành dữ liệu huấn luyện và dữ liệu kiểm tra giống như chúng ta đã nói trong lớp hồi quy và giống như chúng ta đã làm trong notebook hồi quy. Chúng ta sẽ sử dụng, chúng ta sẽ lấy bảng sản phẩm này. Các sản phẩm. Sau đó chúng ta sẽ làm việc chia tách ngẫu nhiên. oops. Các sản phẩm. Và sau đó chúng ta sẽ làm việc chia ngẫu nhiên đó, chúng ta sẽ để 80% cho tập huấn luyện, 20% cho tập kiểm tra. Và để bạn có thể làm lại điều này ở nhà, tôi sẽ đặt seed = 0. Như là chúng ta đã thảo luận trong hồi quy. Thông thường bạn sẽ không thực hiện điều này, bạn nhặt seed ngẫu nhiên khác nhưng tôi muốn seed ngẫu nhiên giống nhau, vì thế khi bạn làm nó, sẽ có kết quả giống như tôi đã làm. Đây là bước đầu tiên, tập kiểm tra và huấn luyện chia trên tập dữ liệu và bây giờ chúng ta đã sẵn sàng. Chúng ta sẽ xây dựng mô hình cảm tính nổi tiếng. Và ở đây chúng ta sẽ sử dụng graphlab và chúng ta sẽ sử dụng bộ phân loại cụ thể được gọi là bộ phân loại logistic. Trong khóa học về phân loại chúng ta sẽ học nhiều hơn về các loại khác nhau của bộ phân loại như hồi quy logistic, chính là bộ này, máy vector hỗ trợ, cây quyết định và các loại khác. Nhưng hãy bắt đầu với bộ phân loại logistic. Bạn có thể nhập .create sau tên và nó thực sự tạo ra bộ phân loại cho bạn. Như đầu vào nó lấy một vài thông số. Chúng ta sẽ lấy dữ liệu huấn luyện như một thông số. Sau đó chúng ta sẽ thấy mục tiêu đó, thứ mà chúng ta cố gắng phân loại là cột sentiment. Sau đó chúng ta sẽ phải nói về các đặc tính được sử dụng. Với các đặc tính này chúng ta sẽ sử dụng cột đếm từ. Đây là cột mới mà chúng ta đã tạo ra ở trên để đếm từ. Tôi sẽ đưa ra một tập xác nhận. Tập xác nhận sẽ là test_data. validation_set=test_data. Được rồi. Bây giờ chúng ta thực hiện cell. Chúng ta sẽ có mô hình bộ phân loại cảm tính. Và chúng ta sẽ chỉ mất hai giây, và chúng ta có ở đây. Đã hoàn thành. Bạn sẽ thấy dữ liệu [INADIBLE] và tính chính xác dường như là ngày càng tốt hơn. Nhưng chúng ta hãy làm một đánh giá qua lại. [NHẠC]