본문 바로가기

머신러닝

[머신러닝] 로지스틱회귀

'예측'을 하는 머신러닝(ML)은 다음 두 가지로 나뉠 수 있다. 

1. 선형회귀: 연속형 데이터를 예측 

2. 로지스틱 회귀: 범주형(이진형 포함) 데이터를 예측

 

1과 0으로 이루어진 범주형이면서 이진형 데이터값인 Y에서 X가 연속형 변수이고 Y가 특정 값이 될 확률을 표현하기엔

선형 회귀 모델인 직선은 한계가 많다.

 

 

X가 연속형 변수이고, Y가 특정 값이 될 확률이라고 설정한다면, 왼쪽 그림과 같이 선형으로 설명하긴 쉽지 않아 보인다.
확률은 0과 1사이 인데, 예측 값이 확률 범위를 넘어갈 수 있는 문제가 있다. 하지만 오른쪽 그림처럼 S자 형태의 함수를 적용하면 잘 설명한다고 볼 수 있다. 

 

따라서 S자형 함수를 만들기 위해 '오즈비'라는 개념이 도입됐다고 한다.

 

오즈비(Odds Ratio): 실패할 확률 대비 성공할 확률

ex) 로또를 5번 샀는데 1번 당첨됐다고 하면 오즈비는 0.2/1.0-0.2 = 0.25

 

하지만 P값이 1에 가까워지면 오즈비가 무한으로 늘어나는 한계점이 있다.

이 오즈비의 한계를 보완하기 위해 로그를 씌워 만든 것이 바로 로지스틱 회귀

이때 Y값이 확률인 것을 명심해야 한다.

 

로짓의 장점

- 어떤 값을 가져오더라도 반드시 특정 사건이 일어날 확률 (Y값이 특정값일 확률)이 0과 1 안으로 들어오게 함

- 가중치를 안다면 x값이 주어졌을 때 해당 사건이 일어날 수 있는 P(확률) 계산 가능

→ 이때 확률 0.5를 기준으로 그보다 높으면 사건이 일어남(P(Y)=1), 

   그렇지 앟ㄴ으면 사건이 일어나지 않음 (P(Y)=0)으로 판단하여 분류 예측에 사용됨. 

X값이 w1만큼 증가하면 오즈비는 e^w1만큼 증가