회귀
여러개의 독립변수와 한개의 종속변수 간의 상관관계를 모델링하는 것
Y = W1*X1+W2*X2+...+Wn*Xn
Y는 종속 변수
X1,X2,X3는 독립변수
W1,W2,W3는 회귀 계수
회귀 예측의 핵심은 최적의 회귀 계수를 찾아내는 것
회귀 계수의 선형/비선형 여부, 독립변수의 개수, 종속변수의 개수에 따라서 여러가지 유형으로 나눌 수 있음
선형 회귀의 과적합 문제를 해결하기 위해 규제(Regularization)방법을 적용, 회귀 계수에 페널티 값을 적요
대표적인 회귀 모델
- 일반 선형 회귀: 예측값과 실제 값의 RSS(Residual Sum of Square)를 최소화 할 수 있도록 회귀 계수를 최적화 하며, 규제를 적용하지 않은 모델
- 릿지(Ridge): 선형 회귀에 L2 규제를 적용한 방식, 상대적으로 큰 회귀 계수 값의 예측 영향도를 감소시키기 위해서 회귀 계수값을 더 작게 만드는 규제 모델
- 라쏘(Lasso): 선형 회귀에 L1 규제를 적용한 방식, 예측 영향력이 작은 피처의 회귀 계수를 0으로 만들어 회귀 예측 시 피처가 선택되지 않게 하는 것
- 엘라스틱넷(ElasticNet): L2, L1 규제를 결합한 모델, 주로 피처가 많은 데이터 세트에서 적용되며, L1 규제로 피처의 개수를 줄임과 동시에 L2규제로 계수 값의 크기를 조정함
- 로지스틱 회귀(Logistic Regression): 분류에 사용되는 선형 모델, 매우 강력한 분류 알고리즘
단순 선형 회귀
오류 합을 구할때 보통 절대값을 취해서 더하거나(Mean Absolute Error) 오류 값의 제곱을 구해 더하는 방식(RSS, Residual Sum of Square)을 취하는데 일반적으로 미분 등의 계산을 편하게 하기 위해서 RSS 방식으로 오류 합을 구함
'Data Science' 카테고리의 다른 글
차원 축소 (0) | 2020.10.13 |
---|---|
분류 (0) | 2020.10.06 |
데이터 가공 (0) | 2020.08.19 |
사이킷런(scikit-learn) (0) | 2020.08.14 |
Numpy, Pandas (0) | 2020.08.14 |