[NHẠC] Một trong số những kiểu
phân loại phổ biến nhất là phân loại tuyến tính. Chúng ta hãy nói một chút về điều này. Câu hỏi ở đây là làm thế nào để
diễn tả được một bộ phân loại? Chúng ta bắt đầu bằng các câu, ví dụ
trong viễn cảnh cảm tính, bộ phân loại. Bạn dự đoán liệu nó là câu
tích cực hay là câu tiêu cực. Phân loại này làm việc như thế nào? Trong phân tích cảm tính,
bạn có thể tưởng tượng một kiểu phân loại ngưỡng đơn giản. Cứ cho là tôi lấy một câu
và ai đó nói với tôi tất cả những từ tích cực,
tốt đẹp, tuyệt vời, vân vân. Đây là một loạt các từ tiêu cực. Xấu, tồi tệ, ghê tởm, vân vân. Và cái mà tôi có thể làm là lấy câu và đếm xem có bao nhiêu từ
tích cực trong một câu và bao nhiêu từ tiêu cực trong một câu. Sau đó nói nếu số từ tích cực cao hơn số từ tiêu cực. Chúng ta có câu tích cực nhưng nếu chúng sử dụng nhiều từ
tiêu cực thì đó là câu tiêu cực. Ví dụ, nếu câu đầu vào chúng ta có
là sushi rất ngon, tích cực thứ nhất, thức ăn rất tuyệt vời, tích cực thứ hai,
nhưng phục vụ rất tệ, một tiêu cực. Bạn có hai tích cực, một tiêu cực và kết luận đó là đánh giá tích cực. Phân loại ngưỡng có một vài giới hạn. Danh sách các từ tích cực và
tiêu cực thực sự đến từ đâu? Nó phải đến từ một nơi nào đó và không chỉ vậy, các từ có mức độ
tích cực và tiêu cực khác nhau. Thật tuyệt có nhiều tính tích cực hơn là tốt. Bạn muốn điều chỉnh và hình dung ra
tuyệt vời, tốt, kinh ngạc là gì, liệu kinh ngạc có mức tích cực hơn tuyệt vời? Ai mà biết được? Vậy chúng ta hình dung như thế nào, làm thé nào
chúng ta tính trọng lượng các từ khác nhau? Và các từ đơn có lẽ không đủ
để tạo ra sự phân loại tốt. Thức ăn tốt, thức ăn tốt là tích cực. Thức ăn không tốt là tiêu cực. Tất cả những vấn đề này cần được chỉ ra. Hai lĩnh vực đầu tiên nơi mà tạo ra
các từ tích cực và các từ tiêu cực và cách bạn tính trọng lượng chúng
xuất phát từ học một bộ phân loại sẽ được nói tiếp theo đây. Vấn đề tốt so với không tốt được chỉ ra bằng việc sử dụng các
đặc trưng phức tạp hơn là các từ đơn. Và chúng ta sẽ nói về nó ở cuối của module. Vậy một phân loại tuyến tính thay vì có một danh sách các từ tích cực và tiêu cực thì lấy tất cả
các từ và thêm trọng lượng cho chúng. Ví dụ, tốt có thể có trọng lượng là 1,
thì tuyệt vời có trọng lượng 1.5, kinh ngạc có trọng lượng lớn tới 2.7. Trong khi xấu có trọng lượng là -1, thì tệ là -2.1, khủng khiếp có thể là -3.3 bởi vì
khủng khiếp tức là thực sự khủng khiếp. Những cách này thực sự không
ảnh hưởng với cảm tính. Những điều như là chúng ta, nơi chốn, nhà hàng,
xuất hiện cả trong các câu tích cực và các câu tiêu cực vì thế chúng có trọng lượng là 0. Giả sử ai đó nói với bạn trọng lượng các từ đó. Chúng ta sẽ nói về cách học các từ đó của bộ phân loại. Nhưng với các trọng lượng đưa ra, làm thế nào
để chỉ ra đó là một câu là tích cực hay tiêu cực. Ở đây chúng ta sử dụng ý tưởng về tính điểm. Ví dụ lấy câu này. Sushi tuyệt vời, thức ăn đáng
kinh ngạc nhưng dịch vụ thì tệ. Hãy tính điểm cho câu này. Chúng ta sẽ tính điểm cho câu đầu vào x. Trong trường hợp này, bạn có
từ tuyệt, bạn được tích cực 1.2. Từ kinh ngạc, bạn có thêm 1,7 nhưng từ tệ, bạn bị trừ 2.1 ở đây, và tổng cộng là 2.9 trừ 2.1 bằng 0.8. Chìa khóa ở đây là nếu điểm của các câu lớn hơn 0, chúng ta sẽ dự đoán đó là câu tích cực. Nếu điểm là ngược lại, nếu điểm của x nhỏ hơn 0, chúng ta sẽ dự đoán đó là câu tiêu cực. Đây là cách làm việc của phân loại tuyến tính. Nếu bạn biết trọng lượng của mỗi từ,
và điều này được gọi là phân loại tuyến tính bởi vì đầu ra
cơ bản là tổng trọng lượng của đầu vào. Chỉ cần tính trọng lượng cho những gì các đặc trưng
xuất hiện, những từ xuất hiện trong đầu vào. Chúng ta đang bắt đầu với
phân loại tuyến tính đơn giản. Tóm lại, đưa ra một câu và
đưa ra các trọng lượng cho câu này, việc chúng ta làm là tính điểm, đếm trọng lượng của các từ trong câu. Và sau đó chúng ta nói nếu điểm lớn hơn 0, chúng ta dự đoán y mũ là tích cực. Nếu điểm nhỏ hơn 0, chúng ta dự đoán là tiêu cực. Và đó chính là phân loại tuyến tính. [NHẠC]