[NHẠC] Chúng ta đã xây dựng một biểu đồ phân tán và chúng ta có một ý tưởng về dữ liệu. Câu hỏi là chúng ta có thể sử dụng biểu đồ phân tán để dự đoán giá cả từ diện tích sống không? Chúng ta sẽ làm một mô hình quy hồi đơn giản. Hãy thực hiện điều đó, chúng ta ấn SM Chúng ta sẽ nói #Create a simple regression model of sqft_living to price. Hãy thực hiện điều đó. Nhớ lại từ các bài giảng đầu tiên bạn làm trước khi bạn làm bất kì điều gì với dữ liệu của bạn là chia nó thành bộ huấn luyện và bộ thử nghiệm, bởi vì bạn không muốn làm, thử huấn huyện hoặc học trên dữ liệu thử nghiệm, bạn chỉ muốn làm điều đó trên dữ liệu huấn luyện. Hãy làm điều đó, phân chia, tôi sẽ lấy dữ liệu của tôi và chia nó thành train_data và test_data bằng việc dùng một chức năng mà bạn có thể áp dụng nó được gọi là chức năng phân chia ngẫu nhiên. Sales.random_split. Bàng cách này cái tôi đã làm ở đó là sử dụng tab hoàn toàn. Hãy để tôi cho bạn thấy một chút mẹo, chỉ một giây. Nếu tôi chỉ làm sales.r và tôi ấn Tab, bạn sẽ thấy có một số thứ tôi có thể làm. random_split, read_csv, remove_columns, rename_columns và vân vân. Tôi sẽ chỉ làm random_split. Và cái mà tôi sẽ làm là .8 split. .8 dữ liệu, 80% sẽ cho huấn luyện và 20% là cho thử nghiệm. Bây giờ điều cuối cùng là rất hữu ích cho bài tập về nhà của bạn và nói chúng để đảm bảo rằng bạn luôn có kết quả giống nhau là đặt nền tảng cho việc phân chia. Bởi vì phân chia ngẫu nhiên, nó là máy phát điện ngẫu nhiên giả. Chúng ta có thể đặt vào nó, chúng ta sẽ đặt nền tảng là bất kì số nào chúng ta muốn. Ví dụ nó có thể là 2015, nó có thể là nhiều thứ, vì thế tôi sẽ chỉ đặt nó là 0. Mỗi lần tôi làm phân chia ngẫu nhiên, nó chia dữ liệu bằng một cách. [NHẠC]