[음악] 이 모듈에서 회귀에 대해 알아봤습니다 회귀를 통해 주택 가격을 예측하는 법을 살펴보았습니다 IPython 노트북을 이용해 킹 카운티의 실제 데이터를 기반으로 주택 가격 예측을 해보겠습니다 킹 카운티는 시애틀 시의 지역이며 에밀리와 제가 살고 있는 곳이기도 합니다 이 공공 기록 데이터를 가지고 IPython을 만들어서 주택 가격을 예측해 봅시다 그럼 시작해보겠습니다. 빈 IPython 노트북입니다 우선 제목을 주택 가격 예측으로 바꿉니다 이름은 바꿨고 이제 보기 메뉴의 헤더와 툴바를 숨김 처리 해서 공간을 확보하죠 다 됐죠 우선 파이썬 알고리즘을 돌릴 GraphLab Create를 띄울 겁니다 Esc+m 누르고 GraphLab Create 띄우기라고 씁니다 import graphlab 입력하면 띄워지죠 오늘 할 작업은 주택 가격 예측입니다 이제 주택 판매 데이터를 읽어들이겠습니다 시애틀 지역에서 팔린 주택들의 공공 데이터, 공공 기록입니다 이 표 데이터에 판매라는 이름을 붙이고 graphlab.SFrame이라고 써줍니다 전 시간에 SFrame이 GraphLab Create에서 표 형태 데이터를 담는 자료구조라고 알려드렸지요? 빠른 out-of-core 자료구조인데 주택 정보를 읽어올 겁니다 home_data라고 하고 방금 IPython 노트북이 자동완성 해줬죠 지금 읽고 GraphLab Create을 띄우는데 판매라고 입력하면 데이터 형식을 볼 수 있습니다 위로 조금 스크롤업해서 판매라고 입력하면 ID, 날짜, 가격, 침실 개수, 화장실 개수, 평수, 대지면적, 층수 등등이 여러 카테고리로 나옵니다 시야가 있는지, 경사가 있는지 등등의 측량 수치가 있습니다 이런 주택 데이터를 읽어들여봤는데 괜찮아 보입니다 이제 GraphLab Canvas를 써서 시각화를 해보지요 칸을 하나 생성합니다 주택 데이터 탐색하기라고 씁니다 주택 판매죠 데이터 탐색을 할 겁니다 판매 데이터를 보여주고 .show를 입력하면 데이터를 시각화해서 보여줍니다 이제 볼텐데 GraphLab이 모든 걸 처리하게 놔두기보다는 산점도를 그려볼텐데 산점도가 뭔지는 곧 알게 됩니다 두 변수의 관계를 나타내는 산점도를 그립니다 x축은 전용면적을 나타냅니다 y축은 가격을 나타냅니다 이 그래프는 전용면적과 가격의 관계를 보여줍니다 약간의 요령이 있는데 노트북을 생성할 때 GraphLab Canvas를 새로운 탭에서 보통 생성하게 되는데 그러지 말고 산점도나 간단한 그래프는 노트북 안에서 생성하는 게 프린트 뽑기에 좋습니다 그러기 위해 GraphLab Canvas 대상을 기본 대상인 브라우저가 아닌 IPython 노트북으로 설정합니다 canvas.set_target('ipynb')라고 입력하면 산점도가 노트북에 그려지게 됩니다 엔터를 누르면 두 축을 그래프로 그리게 됩니다 자 이제 x축은 주택 평수고 y축은 가격입니다 이걸 좀 살펴보죠 평수가 클수록 큰 집이니 여기 마우스를 갖다대면 이 큰 집은 5990 평방피트임을 확인할 수 있죠 꽤 큰 집인데 아마 600 평방미터는 될 겁니다 220만 달러에 팔렸는데 상당한 금액이죠 여기 보시면 적당한 관계가 형성되어 있는데 큰 집이 더 비싸다는 것입니다 여기 큰 덩어리가 1000에서 3000 평방피트의 주택입니다 여기서도 이 집은 이상점이죠 겨우 1910 평방피트인데도 150만에 팔렸습니다 비슷한 크기의 1700 평방피트의 집은 14.9만에 팔렸는데 말이죠 큰 괴리가 있습니다 여기 데이터 세트에서 가장 튄 이상점이 있습니다 3730 평방피드인데 250만에 팔렸죠 [음악]