-
회귀란 ?
카테고리 없음
2025. 1. 6. 10:12
1. 회귀 분석의 배경과 원리
- 역사적 배경:
- 회귀 분석(regression)은 19세기 영국 통계학자 **프랜시스 갈톤(Francis Galton)**의 연구에서 시작되었습니다.
- 그는 아버지와 자식의 키 사이의 상관관계를 연구하며, 자식의 키가 부모의 평균 키로 "회귀(regress)"하는 경향이 있음을 발견했습니다.
- 이 발견은 오늘날 회귀 분석의 기초가 되었으며, 변수 간의 관계를 분석하는 데 중요한 도구로 발전했습니다.
- 원리:
- 회귀 분석은 주어진 독립변수들(설명변수)을 사용해 종속변수(결과변수)의 변화를 설명하거나 예측하려는 목적을 가집니다.
- 기본 모델
- y = b0 + b1x1 + ......+.... + c
- y = 종속변수
- b0 = 절편
- b1,b2 = 회귀 계수 ( 독립변수가 종속변수에 미치는 영향 )
- c = 오차항
2) 다중 회귀분석 (Multiple Regression Analysis)
- 정의: 하나의 종속변수와 여러 독립변수 간의 관계를 분석합니다.
-
- 예시:
- 집값(y)을 예측하기 위해 위치(x1), 크기(x2), 건축연도(x3)를 고려.
- 환자의 병원비(y)를 예측하기 위해 나이(x1), 성별(x2), 치료 기간(x3)을 분석.
3. 회귀 분석의 활용
- 통계적 예측 및 모델링:
- 경제학: GDP와 소비 간의 관계 분석
- 사회학: 교육 수준과 소득 간의 관계 분석
- 의료: 약물 복용량과 치료 효과 간의 관계 예측
- 시계열 분석:
- 시간에 따른 변화 데이터 분석. 예: 주가, 날씨 변화, 판매량.
- 가설 검정 및 인과 관계:
- 독립변수가 종속변수에 미치는 영향을 규명하고, 가설을 검증.
4. 회귀 분석의 주요 과정
- 데이터 준비:
- 독립변수와 종속변수를 식별하고, 데이터 정리 및 전처리 수행.
- 모델 학습:
- 회귀 계수(β)를 최소제곱법(Least Squares Method) 등을 통해 추정.
- 잔차(오차항)의 제곱합을 최소화.
- 모델 평가:
- 결정계수(R2)를 사용해 모델의 설명력을 평가.
- 통계적 유의성 검정(t-test, F-test 등) 수행.
- 모델 활용:
- 예측, 시뮬레이션, 의사결정 등에 모델 적용.
5. 회귀 분석의 한계
- 선형성 가정: 회귀 분석은 독립변수와 종속변수 간의 선형 관계를 가정하므로, 비선형 관계를 제대로 설명하지 못할 수 있음.
- 다중공선성 문제: 독립변수들 간의 상관관계가 높은 경우, 계수 추정이 부정확해질 수 있음.
- 이상치 민감성: 데이터의 이상치(Outlier)에 민감하여 분석 결과가 왜곡될 가능성이 있음.
6. 추가로 알아두면 좋은 회귀 기법
- 로지스틱 회귀분석(Logistic Regression): 종속변수가 범주형일 때 사용(예: 성공/실패, 참/거짓).
- **릿지 회귀(Ridge Regression)**와 라쏘 회귀(Lasso Regression): 다중공선성 문제를 해결하고 과적합을 방지하기 위해 규제(regularization)를 추가한 기법.
- 비선형 회귀(Non-linear Regression): 독립변수와 종속변수 간의 비선형 관계를 분석.