주택 가치 예측 문제에 대해 알아보죠 아주 중요한 문제입니다 적어도 미국에서는요 가계자산의 50% 가깝게 부동산에 투자돼있다고 예측됩니다 소비자와 개인, 정부에게 분명히 중요합니다 제가 집을 팔고 싶다고 하죠 크고 예쁘며 푸른 집을 갖고 있는데 얼마에 내놔야 할지 모릅니다 주택 가치가 어느 정도인지 잘 모르겠습니다 가치 예측에 어떻게 접근해야 할까요? 우선 인근 주택들의 최근 판매 가격을 살펴보는 것도 방법이겠죠 근처 지역을 둘러보며 다른 집들은 얼마에 팔렸는지 생김새는 어떤지 봅니다 그리고 최근 판매 기록을 보며 가격은 얼마였는지 크기는 어떠했는지 봅니다 이 두 기준으로 대상 주택이 제 집과 비슷한지 아닌지를 판별합니다 통계학자이니 모든 관찰 결과를 그래프로 나타내 보겠습니다 미국에서는 주택 크기를 평방 피트로 측정합니다 이걸 x축으로 삼고요 y축은 주택 판매 가격이 됩니다 y 변수는 그렇고 이 각각의 점은 특정 주택 가격을 나타냅니다 여기 이건 인근 주택의 판매 가격이죠 용어를 살짝 소개하자면 회귀에서 변수 x는 저희가 계속 말해왔듯이 특징인데 공변량이나 예측변수라고도 부릅니다 어떤 때는 독립변수라고 하지요 관찰 결과 y는 제가 말했듯이 저는 주로 관찰 결과라고 지칭합니다 응답변수나 종속변수라고도 부릅니다 이제 이 관찰 결과를 놓고 저희 집의 가치를 어떻게 예측할까요? 저희 집이 얼마나 큰지 보고 같은 크기 집의 판매 기록을 찾습니다 평수가 정확히 같은 집은 하나도 없을 가능성이 높죠 이런 접근은 어렵습니다 유연성을 발휘해서 이웃, 그러니까 지역적으로 이웃이 아니라 평수가 비슷한 집들을 찾습니다 이 평수 범위 안에 있는 주택 가격을 조사해 보는 거죠 하지만 이렇게 접근해도 예측의 기반이 되는 판매 기록은 두 개밖에 없습니다 이걸론 충분하지 않을 것 같죠 그리고 지금 다른 모든 관찰 결과는 주택 가치와 상관이 없다고 상정하고 있죠 정말 그런가요? 이 관결 결과에 아무런 정보도 없다고 단정할 수 있나요? 저는 이 데이터에서 얻을 수 있는 모든 정보가 예측에 반영되기를 바랍니다