[NHẠC] Bây giờ chúng ta đã làm một số quy hồi đơn giản, một số quy hồi đơn giản cho dữ liệu của chúng ta cái mà chỉ sử dụng diện tích. Nhưng nếu bạn nhớ, tập dữ liệu của chúng ta có rất nhiều cột khác nhau liên quan đến điều đó, hoặc những đặc trưng. Cái mà chúng ta sẽ làm tiếp theo là khám phá những đặc trưng khác trong dữ liệu. Hãy làm một số thăm dò về đặc trưng khác chúng ta có thể sử dụng. Tôi sẽ sử dụng tập các đặc trưng. Hãy tạo ra một dãy các đặc trưng tôi sẽ khám phá, mã đặc trưng. Và những đặc trưng sẽ là số các phòng ngủ, số phòng tắm. Chúng ta hãy xem, còn gì nữa không? Diện tích không gian sống, cái mà chúng ta đã đang khám phá. Thêm vào đó, tôi sẽ bao gồm cả diện tích, vì vậy đây là số vùng đất căn nhà có xung quanh nó. Số lượng sàn trong căn nhà. Và cuối cùng, tôi sẽ bao gồm cả một biến được gọi là mã ZIP. Và như vậy mã ZIP ở Mỹ là cái mà các quốc gia khác gọi là mã bưu chính. Ở Brazil chúng ta gọi là SAPI. Nhưng có rất nhiều tên ở các nơi khác nhau, đó là cái mà chúng ta sẽ bao gồm. Hãy xem, nếu tôi lấy dữ liệu bán và tôi chỉ chọn cột này, chỉ chọn đặc trưng cột ở đây, tại sao chúng ta không gọi chúng thật rõ ràng, thay vì gọi các đặc trưng tôi sẽ gọi chúng là my_features. Shift+Enter. Và sau đó tôi sẽ nhìn xem các cột my_features trông thế nào. Tôi sẽ nhập .show. Hãy nhớ chúng ta có thể nhập bất kì .show nào với GraphLab Create. Trên sframe cho bán hàng, lựa chọn my_features. Và bây giờ chúng ta sẽ có hình dụng về các đặc trưng. Hãy để tôi cho bạn xem qua hình dung này. Chỗ có chuột của tôi. các phòng ngủ, hãy nhìn vào tần xuất. Có 13 loại khác nhau. Thực tế có vài ngôi nhà với mười phòng ngủ. Hầu hết các ngôi nhà có ba phòng ngủ. Một số thì có bốn, có hai, có năm và có nhiều loại nữa. Với các phòng tắm, Hóa ra là nhà ở Mỹ bạn có số phân đoạn các phòng tắm. Khi bạn nói, ví dụ, 2.5 phòng ngủ là con số phổ biến nhất, là bởi vì nếu bạn có một căn nha với một phòng tắm với một bồn tắm trong đó, nó được gọi là một phòng tắm đầy đủ, nó đếm 1. Nhưng nếu bạn chỉ có một phòng tắm mà có một bồn rửa mặt và một toilet, nó chỉ mang giá trị 0.5. Và vì vậy ở đây bạn có 2.5. Thực tế nếu bạn có một phòng tắm với một bồn rửa măt một toilet và một vòi hoa sen nhưng không có bồn tắm thì có giá trị là 0.75 ở Mỹ. Bạn học như thế Đó là nơ mà bạn có thể có một phòng tắm là phổ biến thứ hai và sau đó bạn có 1.75 phòng tắm này, cái mà có thể sẽ là phòng tắm đầy đủ với một bồn tắm và một phòng tắm với vòi hoa sen. Bạn có thể thấy sự phân bố ở đây. Tương tự với những thứ khác, giống như diện tích sống và số lượng sàn, hầu hết các ngôi nhà có một sàn, một số nhà có hai. Sau đó mã ZIP. Mã phổ biến nhất là 98103, đó là vùng có rất nhiều người sống ở Seattle. Okay, vậy thì. Chúng ta đã xem hiển thị mức độ cao của dữ liệu ở các cột khác nhau. Bây giờ chúng ta hãy nhìn vào một số các mối quan hệ khác của dữ liệu. Hãy làm các hiển thị vui ở đây. Tôi sẽ lấy bảng bán hàng và tôi sẽ nhập show. Nhưng xem cái mà tôi sẽ làm, nó sẽ không phải là biểu đồ phân tán. Nó sẽ là cái mà được gọi là biểu đồ hộp và hộp này sẽ liên quan đến hai biến mà chúng ta đã nhìn. Trên trục X tôi sẽ sử dụng mã ZIP, vì vậy đây là mã bưu chính mà chúng ta đã thảo luận, và trên trục Y tôi sẽ đặt giá. Cái mà chúng ta sẽ thấy là mối quan hệ giữa vị trí, mã ZIP nơi mà có căn nhà và giá cả. Và chúng ta sẽ thấy điều đó với cái được gọi là biểu đồ hộp. Tôi sẽ nhấn Shift+Enter và chúng ta sẽ đánh dấu nó. Và đây cái mà chúng ta sẽ thấy. Bạn sẽ thấy, ví dụ, đây là mã zip của vùng này, mã bưu chính, 98003, có giá thấp hơn đáng kể. Trong kho giá trung bình rất thấp, đây là đường thẳng đỏ, không có nhiều biến. Trong khi mã zip khác là 98004, đây là 003, 98004 có giá trung bình cao nhất, cao hơn rất nhiều, một điểm nào đó hàng triệu, 1,1 tỉ và một biến lớn. Những ngôi nhà khác thay đổi tương tự, đây là gì? 800.000$, nó hầu hết là bồn triệu đô. Nhưng ở đây tôi chỉ đưa ra một vài mã zip. Nếu tôi kéo xuống đây, bạn sẽ thấy nhiều mã zip hơn nữa. Và bây giờ cái này ở đây là gì vậy? Có một thứ thuộc thiên văn, nó đi ra khỏi phạm vi. Vài ngôi nhà ở đây có giá như thế này, đây là gì? bảy triệu đô hoặc gì đó. Và mã bưu chính này là 98039. Hãy nhớ 98039, chúng ta sẽ quay trở lại nó ở cuối của notebook này. Nó khá là thú vị. [NHẠC]