-
scikit-learn 클래스
예측 값과 실제 값의 RSS( Residual sum of squares )를 최소화해 OLS( Ordinary Least Squares )
추청 방식으로 구현한 클래스
fit( )
선형 회귀에서 ax+b=y는 가장 기본적인 형태의 1차 회귀 모델을 나타냅니다. 여기서, aa는 기울기(slope), bb는 절편(intercept), 그리고 x와 y는 각각 독립 변수와 종속 변수입니다.
이 공식에서 **기울기 a**와 **절편 b**는 주어진 데이터를 바탕으로 자동으로 결정됩니다. 즉, 우리가 직접 정해주지 않아도 됩니다. 대신, 우리가 해야 할 일은 데이터를 바탕으로 회귀 모델을 학습시키는 것입니다. 이를 위해서는 보통 **최소 제곱법(Least Squares Method)**을 사용하여, 데이터의 점들을 직선에 가장 근접하게 만드는 기울기와 절편을 구합니다.
선형 회귀 모델에서 와 의 결정
- **기울기 aa**는 데이터의 변화율을 의미합니다. 즉, x값이 변할 때, y값이 얼마나 변하는지에 대한 비율을 나타냅니다.
- **절편 b**는 x = 0일 때 y값입니다.
회귀 모델의 기울기와 절편은 데이터에 의해서 자동으로 결정됩니다. 데이터 전처리나 중위값, 평균을 따로 사용하여 결정하는 것이 아니라, 주어진 데이터 포인트들에 대해 모델이 가장 잘 맞는 직선을 자동으로 찾는 방식입니다.
예시: 선형 회귀 모델 학습 과정
- 주어진 데이터: 예를 들어, 다음과 같은 x와 데이터가 있다고 가정합시다
x y 1 2 2 3 3 4 4 5 - 모델 학습: 이제 우리는 이 데이터를 사용하여 선형 회귀 모델을 학습시키고, **기울기 aa**와 **절편 bb**를 찾습니다. 이때 사용하는 알고리즘이 **최소 제곱법(OLS)**입니다. 이를 통해 모델은 주어진 데이터를 가장 잘 설명하는 직선을 찾습니다.
- 결과: 모델이 학습을 마친 후, 기울기 aa와 절편 bb를 구하게 됩니다. 예를 들어, 모델이 y=1x+1y = 1x + 1을 찾았다면, 이는 기울기 1과 절편 1을 의미합니다.
- 예측: 이제 이 모델을 사용하여 새로운 데이터에 대해 예측할 수 있습니다. 예를 들어, x=5일 때, 예측된 y값은 입니다.
- 예를 들어, x = 5일 때, 예측된 y값은 y = 1 * 5 + 1 = 6
데이터 전처리와 모델링
- 중위값이나 평균은 보통 데이터 전처리 단계에서 결측값을 처리할 때 사용됩니다. 예를 들어, 어떤 xx나 yy 값이 비어 있으면 그 값들을 중위값이나 평균값으로 채워 넣을 수 있습니다.
- 하지만, 기울기와 절편은 모델을 학습하는 과정에서 자동으로 최소 제곱법을 통해 구해지며, 우리가 별도로 직접 선택할 필요는 없습니다.