[NHẠC] Chúng ta đã thảo luận về lỗi và tính chính xác để đánh giá một phân loại. Bây giờ rất quan trọng để hiểu được tính chính xác hoặc các lỗi mà bạn thực sự nhận được từ sự phân loại của bạn. Tôi thực sự nghĩ rất kỹ về những sai sót hay mức độ chính xác trong tình huống của bạn. Ví dụ, một trong các lỗi phổ biến bạn có thể gặp là nói sự phân loại của tôi tốt về mọi mặt như thế nào? Khi bạn xây dựng một phân loại, việc so sánh cơ bản đầu tiên nên làm là hạn chế việc dự đoán ngẫu nhiên. Ví dụ, nếu bạn có một vấn đề phân loại nhị phân như là câu mang thái độ tích cực hoặc tiêu cực, chỉ đoán ngẫu nhiên sẽ cho bạn độ chính xác trung bình 50%, vì thế bạn vẫn có 50% rủi ro. Nếu bạn có k lớp, ví dụ nếu bạn có ba lớp. Bạn sẽ có dự đoán ngẫu nhiên với độ chính xác là 33%. Với bốn lớp nó sẽ là 25%, với k lớp nó sẽ là 1 trên k. Tối thiểu nó vẫn sẽ có phần không chính xác. Bởi vì nếu không có thì cách tiếp cận của bạn là vô ích. Bây giờ thậm chí bỏ qua rủi ro dự đoán ngẫu nhiên, hãy nghĩ về việc liệu bạn phân loại dù nó tốt thì nó thực sự có ý nghĩa không? Ví dụ, giả sử bạn có một dự đoán với độ chính xác 90%. Bạn có nên khoe về nó? Đó là điều tuyệt vời? Cũng tùy. Trường hợp của thư rác, không tốt lắm bởi vì trong năm 2010 dữ liệu chỉ ra rằng 90% email được gửi là rác, 90% số lượng email. Nếu tôi chỉ dự đoán rằng tất cả email là rác, thì tôi sẽ nhận được độ chính xác như thế nào? 90% Đây là một vấn đề cái được gọi là dự đoán theo lớp chính tức là chỉ dự đoán các lớp phổ biến nhất. Và nó có thể có hiệu suất tuyệt vời trong các trường hợp có những cái được gọi là mất cân bằng lớp. Một lớp có nhiều cách biểu diễn hơn các lớp khác. Thư rác có nhiều cách biểu diễn hơn các email thông thường. Và vì thế bạn phải rất cẩn trọng và nhìn xem bạn có sự mất cân bằng lớp không khi bạn cố gắng chỉ ra độ chính xác của bạn là tốt. Và tất nhiên, điều này cũng có những rủi ro, việc tiếp cận này cũng là dự đoán ngẫu nhiên, nếu bạn biết lớp chính là gì. Bạn nên đào sâu vào vấn đề của bạn và hiểu về sự dự đoán bạn đang có và liệu tính chính xác có thực sự có ý nghĩa tốt cho vấn đề của bạn. Hãy hỏi chính mình câu hỏi như là, liệu có sự mất cân bằng không? Bằng cách nào so sánh với các phương pháp cơ sở như là phỏng đoán ngẫu nhiên, lớp chính và những thứ khác thú vị hơn. Và quan trọng nhất hãy nghĩ về sự ứng dụng của bạn và hỏi chính bạn rằng độ chính xác có đủ tốt để làm cho người sử dụng thực sự hài lòng không? Vì vậy trong bộ lọc thư rác, nếu sự chính xác của bạn không tốt thì sẽ có những tin nhắn quan trọng đi đến thư mục rác,và đó là điều không tốt. [NHẠC]