▶ 이전글
2021.09.29 - [데이터 분석/Ecommerce] - [선형회귀] 고객별 연간 지출액 예측하기 - 3
▶ 강의명
▷ [패스트캠퍼스] 파이썬을 활용한 이커머스 데이터 분석
▶ 주제
▷ ch2. 고객별 연간 지출액 예측 (Linear Regression)
-- 강의 내용 --
10. 선형회귀의 원리
선형 회귀분석의 큰 목표는 최적의 모델(라인)을 찾는 것이라 할 수 있다. 그럼 최적의 라인이란 어떤 라인일까?
RSS(Residual Sum of Squares) : 오차제곱합이 가장 작은 라인이 최적의 라인이라 할 수 있다.
>> 수많은 라인(모델)이 생길 수 있겠지만 gradient descent (경사하강법)를 통해 라인의 x/y 절편을 조금씩 조정하며 RSS가 제일 낮은 최적의 모델을 찾는다
11. R-squared, Coefficient, P-value란
모델을 설명하는 지표들은 다양하다. 그중에서 가장 많이 쓰는 3가지는 아래와 같다.
1. R-Squared (R제곱) : 결정계수
- 독립변수가 종속변수에 대해 얼마만큼의 설명력을 갖느냐(모델의 설명력)를 나타낸다.
- 0~1 사이이며, 값이 클수록 좋다. 독립변수의 갯수를 많이 투입할수록 커진다.
- 반면 가중치가 적은(쓸모없는) 독립변수가 많아져도 수치가 높아지기 때문에, 이를 상쇄하고자
Adjusted R-Squared(독립변수의 수가 적을수록 좋게 평가) 를 더욱 적절하게 본다.
2. Coefficent : 상관계수
- 상관계수가 더 클수록 중요한 변수라고 할 수 있다.
- 하지만 데이터 스케일이 비슷해야 한다 (time on web과 time on app 처럼)
3. P-Value : 유의수준
- P value는 0~1 사이의 값을 가지며 0.05보다 작으면 양호한 수치이고 유의수준이 95% 이상임을 의미한다.
- P value가 0.05 이상이면 신뢰할 수 없다.
선형회귀분석의 전체적인 과정을 살펴보면 아래와 같다.
초록선은 독립변수들의 평균을 라인으로 그린 것이며 베이스라인이 된다 (naive하게 예측할때 평균이 기준이 됨)
노랑선은 생성된 모델(라인)이다.
SST는 기본적인 베이스라인인 평균과 실제값의 에러
SSR은 베이스라인과 예측값의 차이, 즉 예측값(모델)을 만들면서 베이스라인에서 얼마나 개선했는지 나타냄
SSE는 실제값과 예측값간의 에러
r제곱(sst분의 ssr)이 0.99라는 것은 전체 에러들 중에서 99%만큼 개선했다는 것을 의미한다
ssr을 늘리고 sse를 줄인다는 것은 전체 에러들 중에서 점차 예측값이 실제값과 닮아가는 개소들이 늘어가는것!
맨땅(sst)에서 시작해서 r제곱 10% -> 20% -> 99% 이렇게 목표로 진행한다
12. 수식 만들어보기
100% 완벽한 모델은 없다. 그래도 (어렵게) 만든 모델을 수식으로 표현하면 어떻게 될까?
y = aX1 + bX2 + cX3 + dX4 의 형태가 된다.
-- 끝 --