[음악] 전용면적 데이터를 통해 간단한 회귀분석을 해보았습니다 하지만 데이터 세트에는 다른 열과 특징도 가지고 있는 경우입니다 다음으로는 데이터의 다른 특징을 탐구합니다 쓸만한 다른 특징을 탐구해보죠 특징 세트를 이용할 겁니다 탐구할 특징의 목록에 특징이란 이름을 붙입니다 이 특징들은 침실의 개수, 화장실 개수 보자, 뭐가 또 있죠? 전용면적은 우리가 지금까지 했었죠 추가로 주택 토지의 넓이인 대지면적을 포함시키겠습니다 주택의 층수 마지막으로 ZIP코드라는 변수를 포함합니다 미국의 ZIP코드는 다른 나라에서는 우편번호라 불리죠 브라질에서는 CEP라고 합니다 여러 곳에서 서로 다르게 불리는데 아무튼 이걸 추가합니다 판매 데이터에서 특징 열을 선택하는데 잠시 여기 특징 이름을 my_features라고 명확하게 하죠 쉬프트+엔터 그리고 my_features 열을 살펴보면 이렇습니다 .show를 입력합니다 GraphLab Create에서는 무엇이든 끝에 .show를 입력할 수 있는거 아시죠 판매 SFrame에서 my_features을 선택하는거죠 특징들이 시각화된 모습이 나타납니다 시각화된 특징을 차근차근 짚어보겠습니다 마우스를 가져다 댑니다 침실의 빈도를 봅시다 13종류가 있군요 어떤 집들은 침실이 열 개네요 대부분은 세 개입니다 몇몇은 네 개, 몇몇은 두 개, 몇몇은 다섯 개, 소수는 그 이상군요 화장실로는 미국에서는 분수로 된 화장실을 가질 수도 있군요 훑어보면 화장실 2.5개가 가장 흔한데 화장실에 욕조가 있으면 완전하니 하나로 치고 싱크대와 변기만 있으면 0.5개로 칩니다 이렇게 해서 2.5개가 되는 것이죠 사실 화장실에 싱크대, 변기, 샤워실이 있고 욕조가 없으면 미국에서는 0.75개로 칩니다 자, 여기 있죠. 화장실 한 개가 두 번째로 흔하고 그 다음이 1.75개인데 아마 다 갖춘 화장실 하나에 샤워실까지만 있는 게 하나일테죠 분포를 봅니다 다른 특징과 유사하게 전용면적, 층수 대부분은 일층이고 이층집도 몇 있죠 그리고 우편번호입니다 가장 많은 건 98103인데 시애틀의 인구가 집중된 지역이죠 이제 데이터의 여러 열에 대한 고도의 시각화를 구경했으니 데이터의 다른 관련성도 살펴볼 차례입니다 재밌는 시각화를 한번 해보죠 판매표에 .show를 입력합니다 하지만 산점도 뷰를 보는 게 아닙니다 상자 그림이라 불리는 게 될텐데 상자 그림은 두 변수의 관계를 설명합니다 x축에는 우편번호를 씁니다 y축에는 가격을 그립니다 그러면 우편번호로 표현되는 위치와 가격의 관련성을 보게 됩니다 박스 그림을 통해 보게 됩니다 쉬프트+엔터를 눌러 그립니다 이런 화면을 보게 됩니다 직접 볼 수 있듯이 이 지역 우편번호인 98003에서는 가격이 상당히 낮습니다 빨간선으로 표현되는 평균 가격이 낮고 변동성이 크지 않습니다 98004 같은 우편번호는 가장 높은 평균 가격인데 100만 달러가 넘고 110만 정도에 변동성이 엄청납니다 적게는 어디죠 80만 달러에서 거의 400만 달러까지 다양합니다 이건 처음 몇 개만 보여드린 거고요 이쪽으로 당기면 더 많은 우편번호를 볼 수 있습니다 와, 여기 이건 뭐죠? 어마어마한 게 하나가 혼자만 따로 노네요 이쪽 집들은 대충 얼마죠? 700만 달러쯤 되겠군요 우편번호는 98039입니다 98039 기억해 두세요 이 노트북 끝 무렵에 다시 보겠습니다 재밌군요 [음악]