[NHẠC] Ok vấn đề chúng ta đang đối mặt ở đây với đa thức thứ 13 là cái gì đó gọi là mất khả năng tổng quát. Cụ thể chúng ta đã làm xong chúng ta lấy một mô hình và sử dụng để quan sát nhưng nó không khát quát tốt để nghĩ đến các dự báo mới. Và các vấn đề vượt quá việc tạo ra các dự đoán. Và chúng ta sẽ thảo luận điều này chi tiết hơn trong khóa học quy hồi. Nhưng tôi muốn đề cập rằng đó là một vấn đề thực sự với mô hình học máy hoặc mô hình thống kê mà bạn có thể thấy. Trong trường hợp này chúng ta muốn làm phù hợp một mô hình dữ liệu nhưng chúng ta không muốn mô hình đó quá cụ thể với một tập dữ liệu mà chúng ta có, nó không khái quát các quan sát mới chúng ta có thể có. Ok vì thế hãy quay lại đa thức thứ 13. Câu hỏi là bạn có thực sự tin vào điều này không? Bạn có thin rằng có thể có một sự phù hợp hợp lí cho dữ liệu không? Và tôi nghĩ tôi đã nói đến trước đây, có thể là chưa. Vì thế mặc dù tôi làm giảm tối đa tổng bình phương phần dư, nó kết thúc dẫn đến dự đoán tệ. Bởi vì tôi đang ngồi ở đây và nghĩ bậc này phù hợp với cái chúng ta có, mặc dù nó không làm giảm tối đa tổng số dư bình phương như đa thức thứ 13, đó là một mô hình tốt. OK câu hỏi là điều gì xảy ra ở đây và chúng ta nghĩ về việc lựa chọn thứ tự mô hình đúng hoặc mô hình phức tạp như thế nào? Vâng cái chúng ta muốn là chúng ta muốn sự dự đoán tốt. Tất nhiên đó là cái chúng ta đang nhắm đến. Nhưng chúng ta không thể quan sát tương lai. Đúng, vì vậy chúng ta không thể quan sát sự đoán mà chúng ta muốn và giả sử chúng ta đã làm tốt hoặc không tốt cho tới khi chúng ta thực hiện nó. Khi chúng ta đang nghĩ về việc lựa chọn mô hình của chúng ta, bằng cách nào đó chúng ta phải làm việc với tập dữ liệu mà chúng ta có. Chúng ta có thể nghĩ đến việc lựa chọn một mô hình tốt trong trường hợp này không? Cái chúng ta có thể làm là chúng ta có thể nghĩ đến các dự đoán phỏng đoán. Chúng ta sẽ lấy tập dữ liệu chúng ta có, chúng ta sẽ loại bỏ một số ngôi nhà. Đó là những ngôi nhà màu xám ở đây. Nó sẽ bị loại tỏ tạm thời. Và chúng ta sẽ làm phù hợp mô hình của chúng ta trên các ngôi nhà còn lại. Tất cả các mẫu chúng ta sẽ sử đụng để làm phù hợp mô hình của chúng ta sử dụng các phương pháp mà chúng ta đã nói đến trước đây. Cái mà chúng ta sẽ làm là chúng ta sẽ dự đoán. Tôi sẽ xóa x và đặt dấu hỏi. Từ mô hình mà tôi vừa học trên các ngôi nhà được khoanh tròn, các giá trị tôi dự đoán cho dấu hỏi này là gì? Tôi có thể so sánh với các giá trị quan sát, bởi vì các ngôi nhà là tập dữ liệu của tôi. OK vì thế tôi có thể sử dụng cái này như một sự ủy thác cho việc thực hiện các loại dự đoán thực mà tôi muốn làm trên dữ liệu tôi chưa thu thập. Tất nhiên phương pháp này sẽ chỉ làm việc tốt nếu tôi có đủ quan sát để nghĩ về việc làm phù hợp phiên bản thử nghiệm trên các dự đoán của tôi. OK hãy giới thiêu một chút về thuật ngữ. Những ngôi nhà mà chúng ta sử dụng để làm phù hợp mô hình của chúng ta, chúng ta gọi là tập dữ liệu huấn luyện. Và các ngôi nhà mà chúng ta đang sử dụng như một sự ủy thác cho các dự đoán của chúng ta, cái mà chúng ta đang nắm giữ, chúng ta gọi là tập dữ liệu thử nghiệm. OK hãy tìm hiểu kĩ một chút cách chúng ta sẽ làm phân tích này. Đầu tiên là chúng ta nhìn vào lỗi huấn luyện. Chúng ta sẽ kiểm tra mỗi ngôi nhà trong tập dữ liệu thử nghiệm của chúng ta. Hãy nhìn vào màu đỏ ở đây. Tất cả các ngôi nhà huấn luyện của chúng ta được đại diện bằng các vòng tròn màu xanh, đó là các ngội nhà chúng ta sẽ nhìn vào khi chúng ta nghĩ đến việc xác định lỗi huấn luyện. Cụ thể, chúng ta sẽ nhìn vào các lỗi mà chúng ta làm trên các ngôi nhà Đây là tổng bình phương phần dư trên các ngôi nhà trong tập dữ liệu huấn luyện và đó gọi là lỗi huấn luyện. Cụ thể lỗi huấn luyện giống với cái chúng ta có cho tính toán tổng bình phương phần dư của chúng ta, nhưng chúng ta chỉ bao gồm các ngôi nhà đại diện trong tập dữ liệu huấn luyện. Ok với mô hình cho trước như một tuyến tính phù hợp với dữ liệu, bậc hai hoặc vân vân, cái mà chúng ta có thể làm là chúng ta nghĩ đến việc ước tính các thông số mô hình của chúng ta cái mà là giảm tối đa lỗi huấn luyện. Đó là sự tương đương với cái chúng ta đã nói đến trước khi làm giảm tối đa tổng bình phương phần dư hình vuông. Nhưng một lần nữa ở đây chúng ta chỉ nhìn vào các ngôi nhà trong tập dữ liệu của chúng ta. OK đó là cách chúng ta ước tính w mũ, các thông số mô hình đã được ước tính của chúng ta. Cái mà chúng ta muốn làm là chúng ta lấy các thông số mô hình đã được ước tính và chúng ta nói chúng ta đang làm tốt như thế nào? Nhớ cái mà chúng ta đã nói, cái mà chúng ta sẽ làm, là chúng ta sẽ nhìn vào các quan sát ok? Ở đây các hình tròn màu xám là các ngôi nhà trong tập dữ liệu thử nghiệm của chúng ta. Đó là những ngôi nhà không được sử dụng phù hợp với mô hình này. Chúng ta sẽ nói chúng ta đang dự đoán doanh số ngôi nhà tốt như thế nào? OK dự đoán của chúng ta là gì? Hãy nhớ khi chúng ta nghĩ đến sự dự đoán, chúng ta chỉ sử dụng giá trị phù hợp. Để đánh giá chúng ta đang dự đoán tốt dữ liệu thử nghiệm của chúng ta, chúng ta sẽ nhìn vào điều đó lần nữa, giống như tổng bình phương phần dư hình vuông. Nhưng nó được gọi là lỗi thử nghiệm, nơi chúng ta ước tính các thông số mô hình w muz và chúng ta tính tổng trên tổng các hình vuông trong tập dữ liệu thử nghiệm của chúng ta. OK đó là lỗi thử nghiệm của chúng ta. Nhưng cái mà chúng ta có thể nghĩ đến là lỗi thử nghiệm làm việc như thế nào và lỗi huấn luyện khác nhau như một chức năng của mô hình phức tạp như thế nào? [NHẠC]