'예측'을 하는 머신러닝(ML)은 다음 두 가지로 나뉠 수 있다.
1. 선형회귀: 연속형 데이터를 예측
2. 로지스틱 회귀: 범주형(이진형 포함) 데이터를 예측
1과 0으로 이루어진 범주형이면서 이진형 데이터값인 Y에서 X가 연속형 변수이고 Y가 특정 값이 될 확률을 표현하기엔
선형 회귀 모델인 직선은 한계가 많다.
X가 연속형 변수이고, Y가 특정 값이 될 확률이라고 설정한다면, 왼쪽 그림과 같이 선형으로 설명하긴 쉽지 않아 보인다.
확률은 0과 1사이 인데, 예측 값이 확률 범위를 넘어갈 수 있는 문제가 있다. 하지만 오른쪽 그림처럼 S자 형태의 함수를 적용하면 잘 설명한다고 볼 수 있다.
따라서 S자형 함수를 만들기 위해 '오즈비'라는 개념이 도입됐다고 한다.
오즈비(Odds Ratio): 실패할 확률 대비 성공할 확률
ex) 로또를 5번 샀는데 1번 당첨됐다고 하면 오즈비는 0.2/1.0-0.2 = 0.25
하지만 P값이 1에 가까워지면 오즈비가 무한으로 늘어나는 한계점이 있다.
이 오즈비의 한계를 보완하기 위해 로그를 씌워 만든 것이 바로 로지스틱 회귀
이때 Y값이 확률인 것을 명심해야 한다.
로짓의 장점
- 어떤 값을 가져오더라도 반드시 특정 사건이 일어날 확률 (Y값이 특정값일 확률)이 0과 1 안으로 들어오게 함
- 가중치를 안다면 x값이 주어졌을 때 해당 사건이 일어날 수 있는 P(확률) 계산 가능
→ 이때 확률 0.5를 기준으로 그보다 높으면 사건이 일어남(P(Y)=1),
그렇지 앟ㄴ으면 사건이 일어나지 않음 (P(Y)=0)으로 판단하여 분류 예측에 사용됨.
'머신러닝' 카테고리의 다른 글
[앙상블] 보팅(Voting), 배깅(Bagging), 부스팅(Boosting) (0) | 2024.06.25 |
---|---|
[머신러닝] 선형회귀분석 과제 실습 (0) | 2024.06.12 |
[머신러닝] 선형회귀분석 및 검정 (1) | 2024.06.03 |