Ok chúng ta hãy nói về bài toán dự đoán giá trị một căn nhà. Đây là một bài toán rất quan trọng, ít nhất là tại Hoa Kỳ. Ước tính rằng 50% gia đình giàu có đã đầu tư vào bất động sản. Điều này rõ ràng là quan trọng cho cả người tiêu dùng, các cá nhân cũng như các nhà làm chính sách. Ok, tôi ở đây và muốn bán nhà của tôi. Tôi có ngôi nhà màu xanh to đẹp, nhưng tôi không biết nó giá bao nhiêu. Vì thế tôi không chắc giá trị của căn nhà, và làm thế nào để tôi nghĩ về việc ước tính giá trị của căn nhà? Có thể những gì tôi làm là tôi nhìn vào các mua bán khác đã xảy ra trong khu vực lân cận của tôi. Vì vậy, tôi nhìn cục bộ, ở các khu vực quanh tôi và Tôi nói các căn nhà khác bán với giá bao nhiêu và các căn nhà đó trông như thế nào? Cái mà tôi sẽ làm là tôi sẽ ghi lại các giá bán gần đây, cũng như kích thước của ngôi nhà được bán là gì? Tôi sẽ nói những ý nghĩa gì chỉ ra liệu ngôi nhà đó có giống với nhà tôi hay không. OK, là 1 nhà thống kê, tôi sẽ dùng tất cả dữ liệu quan sát tôi đã có này và tôi sẽ đặt một giá trị vào. Ít nhất ở Mỹ, kích thước của nhà được đo bằng feet vuông. Đó chính là trục x của tôi. Sau đó trục y tôi sẽ biểu diễn giá bán của căn nhà. OK đó là biến y của tôi và mỗi một điểm biểu diễn cho một giá bán nhà. Đây là giá bán nhà trước đó trong khu vực lân cận của tôi. Và giới thiệu một chút về thuật ngữ ở đây khi chúng ta nói về hồi quy, mọi người thường đề cập đến x, biến x này, đại điện cho tính năng, đó là thuật ngữ mà chúng ta đang dùng. Mọi người cũng nói về nó là các đồng biến hoặc dự báo, và trong một số trường hợp, nó được gọi là biến độc lập. Và dữ liệu quan sát của chúng ta là y như tôi vừa nói, tôi có xu hướng đề cập nó như một dữ liệu quan sát. Mọi người cũng gọi nó là sự phản hồi hoặc biến phụ thuộc. Okay, vậy thì. Câu hỏi là tôi sẽ sử dụng các dữ liệu quan sát này như thế nào để ước tính giá trị nhà mình? Tôi có thể nhìn xem nhà mình lớn thế nào và tìm giá bán của các ngôi nhà khác có cùng kích thước. Hầu hết có thể sẽ không có chính xác giá bán của ngôi nhà mà có diện tích giống như ngôi nhà của tôi. OK, vì vậy tôi không thể sử dụng cách này. Tôi sẽ linh hoạt hơn một chút và Tôi sẽ nhìn vài khu vực lân cận, không phải về địa lý, mà là một số phạm vi nhỏ xung quanh diện tích thực của tôi ở đây. Vì thế tôi sẽ nói ok hãy nhìn vào tất cả giá nhà trong phạm vi diện tích này. Nhưng thậm chí với cách này, ví dụ trong trường hợp này, tôi chỉ có hai giá bán nhà làm cơ sở cho dự đoán của tôi. Vì thế tôi thấy không thực sự thoải mái với điều đó. Và cái mà tôi thực sự làm ở đây là tôi lấy ra tất cả dữ liệu quan sát mà không có gì liên quan với giá trị của nhà tôi. Và câu hỏi là, điều đó có hợp lý không? Liệu chúng ta thực sự tin rằng không có thông tin gì trong các dữ liệu quan sát này? Khi tôi nhìn vào dữ liệu này và khi tôi nghĩ về dữ liệu, tôi muốn tận dụng tất cả thông tin mà tôi có thể để đưa ra những dự đoán tốt.