[음악] 좋아요. 방금 한 분석 대신에 주택의 평수와 판매 가격 간의 관련성 모델링에 대해 생각해보죠 그러기 위해서 선형회귀법이란 걸 사용합니다 지금까지 수집한 모든 관찰 결과를 반영하기 위해서는 주택의 평수와 판매 가격 사이의 관련성을 찾아내야 합니다 가장 간단한 모델은 데이터를 따라 회귀직선을 그리는 것이지요 이 데이터에 맞는 회귀직선의 예입니다 절편 w0와 기울기 w1로 정의되어 있죠 w1은 흔히 특징 x의 가중치 또는 회귀계수라고 불립니다 이 가중치를 해석하면 이렇습니다 주택 평수 x가 변화할 때 관찰 중인 주택 판매 가격에 얼마나 영향을 끼치는가? 이 절편과 기울기가 우리 모델의 파라미터입니다 확실하게 하기 위해 여기 이 함수, 선형 함수의 아래 첨자 w는 함수가 파라미터에 의해 결정되었음을 나타냅니다 w는 w0와 w1의 집합이죠 데이터에 맞춰 그린 회귀직선입니다 하지만 어떤 선이 주어진 데이터 세트에 사용하기 맞고 좋을까요? 어쩌면 이거나 이게 더 나을지도 모르죠 파라미터 w 집합의 값을 다르게 함으로써 그릴 수 있습니다 그러니까 모델을 세우기 위해 어떤 w를 고르란 말이죠? 주어진 선에 대해 비용을 정의해 봅시다 데이터에 맞춘 특정 회귀직선과 관련해 흔히 쓰이는 비용은 잔차제곱합이라고 합니다 잔차제곱합에서는 회귀직선과 각 관찰 결과를 봅니다 그리고 모델의 예측과 관찰 결과가 얼마나 떨어져 있는지 보죠 결과라도 해도 그냥 선에 있는 점이지만요 이 거리를 살펴보고 사실은 거리의 제곱을 보죠 잔차라 불리는 이유입니다 잔차는 예측값과 실제 관찰 결과 간의 차이입니다 제곱의 합을 구합니다 이게 공식인데 가격이 있죠 첫 번째 주택의 판매 가격입니다 이 항은 뭐냐고요? 이게 달러 주택 일호라고 하면 여기 이 점은 주택 일호의 평수인 거죠 여기 제가 그린 x는 정확히 이 항을 말합니다 이게 선 위의 점인 것이죠 그러니 달러 기호 빼기 이 항은 관찰된 주택 가격과 이 선으로 표현되는 예측값의 차이가 되는 것이죠 그걸 제곱해서 데이터 세트에 있는 모든 주택에 대한 합계를 구합니다 여기서 정의한 척도와 잔차제곱합를 기준으로 회귀직선을 찾아보도록 하죠 w0과 w1 사이의 가능한 모든 수를 대입해봅니다 가능한 모든 선을 살펴보고 그중 잔차제곱합을 최소화하는 값을 찾습니다 찾아낸 w를 w 모자로 표시합니다 이렇게 해서 w 모자 0, w 모자 1의 집합이 되죠 절편과 기울기입니다 좋아요. w 모자 계산에 꽤 괜찮고 빠른 알고리즘이 존재하는데 이 모델의 파라미터인 w에 가능한 값을 모두 대입해보죠 회귀 강의에서 이 알고리즘에 대해 더 자세히 공부할 겁니다 이제 예측 모델 파라미터를 가지고 저희 집의 가치를 예측하는 방법을 알아봅시다 죄송합니다 여긴 별이 아니라 모자가 들어가야 하죠 예측된 w0 모자와 w1 모자에 대응하는 선을 그렸습니다 이제 여기 저희 집이 있습니다 이건 집의 평수고요 주택 가격에 대한 최선의 추측은 단순하게 선의 예측과 같습니다 저희 집 평수를 대입해서 수치를 계산해 보도록 하죠 w0 모자 더하기 w1 모자 곱하기 집의 평수니 아주 쉽죠 [음악]