본문 바로가기

머신러닝

[머신러닝] 선형회귀분석 및 검정

1. 머신러닝 정의 및 탄생 배경 

 

아직도 머신러닝, 딥러닝, AI 등등 용어가 헷갈리는데

강의 시작 전에 용어 정리와 역사까지 훑어주셔서 좋았다. 

 

2) 용어 

  • AI: 인간의 지능을 요구하는 업무를 수행하기 위한 시스템
  • Machine Learning: 관측된 패턴을 기반으로 의사 결정을 하기 위한 알고리즘
  • Deep Learning: 인공신경망을 이용한 머신러닝
  • Data science: AI를 포괄하여 통계학과 컴퓨터공학을 바탕으로 발전한 융합학문
  • Data Analysis: 데이터 집계, 통계 분석, 머신러닝을 포함한 행위
💡머신러닝(Machine Learning, ML)이란?
기술 통계 등을 통하여 집계된 정보로 의사결정을 했던 과거와 달리 
데이터 수집과 처리 기술의 발전으로 대용량 데이터의 패턴을 인식하고
이를 바탕으로 예측, 분류하는 방법론을 말합니다. 

 

3) 머신러닝 탄생 배경

- 인간은 데이터를 기반으로 한 의사 결정을 내리고 싶기 때문

- 데이터 처리 기술이 발달하며 각종 프로그램들이 개발되고 저장매체 가격이 하락하면서 많은 양의 데이터를 다루는 것이 용이해짐. 

 

 

통계가 표본 집단을 통해 모집단을 추정하는 것처럼

머신러닝은 과거의 데이터들을 학습해 미래를 예측하고 분류한다. 

 

4) 머신러닝 종류

① 지도 학습 (Supervised Leaning)

② 비지도 학습 (Unsupervised Learning)

③ 강화 학습 (Reinforcement Learning)

 

수업에서는 지도 학습을 주로 다루고 있다. 

 

2. 선형 회귀

1) 선형회귀식

머신러닝/딥러닝에서 사용하는 선형회귀식

  • w: 가중치 (=회귀 계수)
  • b: 편향(Bias)

 

실제값과 예측값의 차이, 즉 에러가 가장 작은 가중치를 추정해 에러를 최소화하는 일차 방정식을 구하는 것.

 

2) 회귀분석 평가지표

(1) MSE(Mean Squared Erorr)

- 수립한 모델이 좋은지 평가하는 방법

- 숫자 예측 문제의 경우 머신러닝, 딥러닝 등 어떤 모델에서도 적용 가능한 평가방법

 

*에러 정의 방법

- 에러 = 실제 데이터 - 예측 데이터

- 에러를 제곱하여 합치기

- 데이터의 개수만큼 나누기

 

(2) RMSE: MSE에 Root를 씌워 제곱된 단위를 다시 맞추는 것

 

(3) R Square - 선형회귀만의 평가 지표

- 전체 모형에서 회귀선으로 설명할 수 있는 정도

- 0과 1 사이의 값으로 1에 가까울수록 회귀 모델이 정확하다는 뜻

 

 

우리가 예상할 수 있는 가장 쉬운 회귀선은 기울기가 0, y절편이 'y의 평균'인 직선이다. 

이 직선을 '엉망진창인 회귀선'이라고 부르기로 한다.

이때 회귀분석을 통해 '엉망진창인 회귀선'으로부터 

실제 데이터를 가장 잘 나타내는 최선의 회귀선을 찾아가는 것이 선형 회귀 분석이다. 

 

 

이 블로그 설명을 너무너무너무 잘해주심!!!

출처: https://recipesds.tistory.com/entry/회귀분석-결과의-해석과-R²

 

① R: 엉망진창 회귀선으로부터 회귀분석을 통해 찾아낸 회귀선까지의 변동(개선된 변동)

② E:  실제 관측 데이터와 회귀와의 변동(=잔차, 회귀분석으로 커버할 수 없는 변동)

③ T: 전체 변동

 

→ 회귀를 통해 엉망진창 회귀선(y의 평균)을 R만큼 개선

 

 

즉,

'R²은 전체 편차 중에서 회귀분석을 통해 찾아낸 회귀선이 엉망진창 회귀선(y의 평균)으로부터 변동을 얼마나 개선했는가'

or 

'회귀선이 Residual을 얼마나 줄였는가'

 

 

예시)

3번의 데이터 값은 SST=174², SSR=169²

- 즉 해당 선형회귀보델의 3번 데이터 값에 대한 설명력은 94%

- 단, 모든 데이터에 대해서 위 계산을 수행해야 함

 

 

 

3) 선형회귀분석 전제 조건

- 선형회귀 모델은 이해와 방법이 쉽다는 장점이 있지만 만족해야 하는 조건들이 있다. 

 

(1) 선형성: 종속 변수 (Y)와 독립 변수 (X) 간에 선형 관계가 존재해야 함

(2) 등분산성: 오차의 분산이 모든 수준의 독립 변수에 대해 일정해야 함

(3) 정규성: 오차 항은 정규분포를 따라야 함

 

(4) 독립성: X변수는 서로 독립적이어야 함

 

❗️다중공선성 문제
변수가 많아지면 서로 연관이 있는 경우가 많다. 이처럼 회귀분석에서 독립변수(X)간의 강한 상관관계가 나타나는 것을 
다중공선성(Multicolinearity)문제라고 한다. 만약 Weight, Height 가지고 다른 Y(이를 테면 발사이즈)를 예측한다면 Weight, Height가 연관있는 변수이기 때문에 다중공선성 문제가 나타난다. 

 

4) 선형회귀분석 정합성 검정

(1) : 회귀모델이 얼마나 설명력을 갖는지

 

(2)F-검정: 회귀모델이 통계적으로 유의한지

① 회귀식에 대한 F검정 시행

→ 귀무가설: 회귀모델은 타당하지 않을 것이다.

→ 대립가설: 회귀모델은 타탕할 것이다.

 

p-value로 유의성을 판단

p-value 값이 0.05보다 작다면 95%의 신뢰도로 귀무 가설 기각

 

(3)t-검정: 독립변수와 종속변수 간의 선형관계가 있는지

① 회귀식의 회귀계수(기울기 에 대한 t 검정 시행

→ 귀무가설: 독립변수와 종속변수 간 선형적인 연관이 없을 것이다.

→ 대립가설: 독립변수와 종속변수 간 선형적인 연관이 있을 것이다.

 

② p-value로 유의성을 판단

p-value 값이 0.05보다 작다면 귀무 가설 기각

 

(4) OLS (Ordinary Least Squares) 해석

R-squared (결정 계수) : 회귀모델의 설명력. 1에 가까울수록 모델이 데이터를 잘 설명하고 있다는 것을 의미 

⇒ 60% 정도만 되도 아주 높은 값

 

Prob (F-statistic) : F-통계량에 대한 p-value

 

F-검정 p-value로 위 표에선 3.47e-42로 0.05보다 작음

 

P>|t| (p-value) : 각 계수에 대한 p-value

⇒ t-검정 p-value로 위 표에선 0.000으로 0.05보다 작음

 

 

5) 종합

  • 회귀분석은 크게 3단계로 진행된다.
    1. 독립변수, 종속변수 설정
    2. 데이터 경향성 확인
    3. 정합성 검증 & 결과 해석
  • 회귀분석의 결과해석은 회귀식이 얼마나 설명력을 가지는지, 회귀식이 통계적으로 유의한지, 독립변수와 종속변수 간 선형관계가 유의미한지를 보아야 한다. 
  • 각각의 검정통계량(t-value, F-value)이 가지는 숫자의 의미보다, 이를 신뢰할 수 있는지(p-value)에 포커스를 맞춰야 함.