본문 바로가기
일상공유집

파이썬 다중 회귀 분석 - 효과적인 방법과 예시들

by qoeunsidy 2024. 6. 25.

1. 다중 회귀 분석의 개념

 

Regression

 

  • 다중 회귀 분석은 한 개 이상의 독립 변수가 종속 변수에 미치는 영향을 분석하는 통계 기법이다.
  • 독립 변수란 종속 변수에 영향을 미치는 원인 변수로, 수치적이거나 범주적일 수 있다.
  • 종속 변수는 분석하고자 하는 현상이나 결과를 나타내는 변수이며, 연속적인 값을 갖는 경우가 많다.
  • 다중 회귀 모델은 여러 독립 변수들 사이의 관계를 분석하여 종속 변수의 예측값을 도출하는데 사용된다.

 

 

2. 다중 회귀 분석의 필요성

 

 

  • 다중 회귀 분석은 여러 개의 독립 변수가 종속 변수에 미치는 영향을 분석하여 효과적인 예측을 가능하게 함
  • 단순 회귀 분석에서는 한 가지 독립 변수만 고려하지만, 다중 회귀 분석은 복잡한 현실 상황을 반영할 수 있음
  • 다중 회귀 분석을 통해 다양한 변수 간의 상호 관계를 파악하여 더 정확한 예측 모형을 구축할 수 있음
  • 다중 회귀 분석은 통계적인 유효성을 검정하는 도구로서 의사 결정에 중요한 정보를 제공함

 

 

3. 파이썬을 이용한 다중 회귀 분석 기본 구현

 

Multiple Linear Regression

 

  • 라이브러리 불러오기 : import를 이용하여 필요한 라이브러리를 불러옵니다.
  • 데이터셋 로드 : pandas를 사용하여 데이터셋을 불러옵니다.
  • 독립변수 및 종속변수 설정 : iloc을 이용하여 독립변수와 종속변수를 설정합니다.
  • 훈련 데이터와 테스트 데이터 나누기 : train_test_split을 사용하여 데이터를 훈련과 테스트 데이터로 나눕니다.
  • 다중 회귀 모델 학습 : LinearRegression을 이용하여 다중 회귀 모델을 학습시킵니다.
  • 모델 평가 : 학습한 모델을 평가하여 성능을 확인합니다.

 

 

4. 파이썬 라이브러리를 활용한 다중 회귀 분석 실습 예시

 

 

  • 라이브러리 import: 먼저 pandas, numpy, sklearn 등 필요한 라이브러리를 import 합니다.
  • 데이터 전처리: 데이터를 불러와서 필요한 전처리 작업을 수행합니다. 결측치 처리, 데이터 스케일링 등이 여기에 해당됩니다.
  • X와 y 설정: 독립 변수(X)와 종속 변수(y)를 설정합니다. 이때 X에는 여러 개의 변수가 포함됩니다.
  • 모델 학습: LinearRegression 모델을 사용하여 다중 회귀 분석을 수행하고, 모델을 학습시킵니다.
  • 모델 평가: 모델의 성능을 측정하기 위해 적합성 검정과 예측 성능을 평가합니다. R^2 값 등을 확인합니다.
  • 예측: 학습된 모델을 활용하여 새로운 데이터에 대한 예측을 수행합니다.

 

 

5. 다중 회귀 분석 결과 해석 방법

 

Interpretation

 

  • 회귀 계수 해석: 회귀 계수는 독립 변수가 종속 변수에 미치는 영향의 크기와 방향을 나타냅니다.
  • 결정 계수(R-squared): 모델이 종속 변수의 변동성을 얼마나 설명하는지 나타내는 지표입니다.
  • 조정된 결정 계수: 독립 변수의 수에 따라 모델의 복잡성을 보정한 결정 계수입니다.
  • 잔차 분석: 모델이 가정을 충족하는지 확인하고 잔차의 패턴을 분석하여 모델의 적합성을 평가합니다.
  • 다중 공선성: 독립 변수 간에 높은 상관 관계가 있는지 확인하고, 필요에 따라 변수를 수정하여 모델의 안정성을 높입니다.