5장 가설검정
5.1 가설검정의 원리
- 가설검정이란 분석자가 세운 가설을 검증하기 위한 방법이다. 가설검정에서는 p값(p-value)이라는 수치를 계산하여 가설을 지지하는지 여부를 판단한다.
- 미리 세운 가설을 검증하는 접근법을 확증적자료분석이라 하고, 가설을 미리 세우지 않고, 전체 데이터를 탐색적으로 해석하는 접근법을 탐색적 자료분석이라 한다. 이는 데이터의 특징이나 경향을 파악하거나, 가설 후보를 찾는 것을 목적으로 한다.
- 어떤 조치를 취한 집단을 실험군, 실험군과 대조/비교를 위해 마련한 집단을 대조군이라 한다.
- 귀무가설과 대립가설
- 귀무가설: 신약에 효과가 없다 (모집단 A의 평균 = 모집단 B의 평균)
- 대립가설: 신약에 효과가 있다 (모집단 A의 평균 =/= 모집단 B의 평균)
→ 밝히고자 하는 가설의 부정명제를 귀무가설, 밝히고 싶은 가설을 대립가설이라 한다.
- 귀무가설은 일반적으로 어떤 하나의 상태를 생각한다.
- 가설검정에서는 상정한 가설, ‘신약에 효과가 있다’를 확인하고자 그 부정 명제인 귀무가설을 세우고, 이 귀무가설이 틀렸음을 주장하는 것으로 대립가설을 지지한다는 흐름을 취한다.
- 밝히고자 하는 명제가 잘못되었다고 가정한 뒤, 모순을 발견함으로써 명제를 증명하는 귀류법과 비슷한 논리이다.
- 모집단에서 얻은 표본 평균 a,b가 통상 모집단 평균 ua, ub와 어긋남이 있는 것은 데이터 퍼짐이 있는 모집단에서 무작위로 표본을 추출할 때 생기는 어쩔 수 없는 오차이다. 그러므로 귀무가설 ua =ub가 옳다 하더라도, a≠b가 된다는 것을 알 수 있다.
- 이는 약에 아무 효과가 없더라도 a≠b이므로, 표본평균에는 차이가 생긴다는 것을 의미하고, 그렇기에 표본평균의 차이가 귀무가설이 옳을 때도 생기는 단순한 데이터 퍼짐인지, 아니면 정말로 약의 효과인지를 구분할 필요가 있다.
- 이 사고방식이 가설검정의 바탕이 된다.
- 이는 약에 아무 효과가 없더라도 a≠b이므로, 표본평균에는 차이가 생긴다는 것을 의미하고, 그렇기에 표본평균의 차이가 귀무가설이 옳을 때도 생기는 단순한 데이터 퍼짐인지, 아니면 정말로 약의 효과인지를 구분할 필요가 있다.
- 두 모집단 평균이 ua=ub가 동일한 세계를 상상한다. (=귀무가설이 옳다고 가정한다.)
- 이 세계의 모집단 a,b에서 각각 표본을 추출한다.
- 이 작업을 여러번 반복했다고 치고, 표본평균의 차이를 히스토그램으로 그린다. (이때 표본차이는 평균적으로 0이며, 0에 가까운 값이 나오기가 쉽다.)
- 현실로 돌아와 실제 데이터로 계산한 표본평균의 차이를 떠올려 보자.
- 이 현실의 값은 귀무가설이 옳은 가상 세계에서는 어떤 빈도로 발생할까?
- 가상 세계에서 극히 드물다 → 가상 세계가 틀렸다 → 즉, ‘귀무가설이 옳다’는 가정은 틀렸다
- 현실에서 얻은 데이터가 귀무가설이 옳은 가상 세계에서는 얼마나 나타나기 쉬운가, 또는 어려운가를 평가하고자 p값(p-value)을 계산한다.
- p값(p-value)은 확률이므로 0이상 1 이하이다.
- 예를 들어, 현실에서 얻은 평균값의 차이가 +10이고 p=0.01이라면, 귀무가설이 옳은 세계에서 평균값의 차이가 +10 이상이거나 -10 이하가 될 확률은 1%이다.
- p값이 작다는 것은 귀무가설이 옳은 세계에서는 현실 데이터가 잘 나타나지 않는다는 뜻이므로, p값은 귀무가설과 현실 데이터 간의 괴리 정도를 평가하고 있는 셈이다.
- 일반적으로 p값이 0.05 이하인 경우, 귀무가설 하에서 현실데이터는 나타나기 어렵다고 생각하고, 귀무가설을 기각하고 대립가설을 채택한다.
- 이때 평균값의 차이는 ‘통계적으로 유의미한 차이가 있다’라고 표현한다.
- 반대로 p값이 0.05를 상회하는 경우 귀무가설을 기각할 수 없으며, ‘통계적으로 유의미한 차이는 발견하지 못했다’라는 결과가 된다. 이는 귀무가설이 옳다는 것이 아니라, 틀렸다고 말할 수 없다는 뜻이다.
5.2 가설검정 시행
- 실제 값이 귀무가설이 옳을 때의 t분포 내 어디에 위치하는지 구한 뒤, 그 이상의 극단적인 값이 나올 확률을 구한 것이 p값이다. 만약 t=-2.3이라면 t가 -2.3 이하일 확률과 +2.3 이상일 확률을 각각 구하면 된다.
- p값 계산은 신뢰구간 계산과 무척 닮았다.
- 모집단 평균의 차의 95% 신뢰구간이 0에 걸치는지 여부와, p값이 0.05를 밑도는지 여부는 등치이다.
- 실제 값인 표본평균으로 모집단 평균을 추정하는 것이 신뢰구간이며, 귀무가설을 가정해 모집단 평균을 ua-ub=0으로 고정했을 때의 표본평균이 어떤 값이 될 것인지를 구하는 것이 가설 검정이다.
- 통계적으로 유의미한 차이를 발견할 수 없었다는 것은 귀무가설을 지지한다는 것이 아니라, 귀무가설과 대립가설 중 어느 쪽도 지지할 수 없어 결론을 보류한다는 판단임을 주의해야 한다.
5.4 제1종 오류와 제2종 오류
- 제1종 오류는 실제로는 아무런 차이가 없음에도 차이가 있다고 판단해버리는 잘못 (=실제로 약의 효과가 없는데도 있다고 주장하는 경우)
- a=0.05 (유의수준이 0.05)란, 귀무가설이 옳을 때 평균적으로 20번 중 1번 정도는 귀무가설을 착오로 기각하고 대립가설을 채택한다는 뜻.
- 이 조건에서 전혀 효과가 없는 약을 20종류 준비하고 각 약의 효과를 검증하면, 평균적으로 1종류의 약에는 통계적으로 유의미한 차이가 나타나 약 효과가 있다고 주장하게 되는 것.
- 제2종 오류란 정말로 차이가 있는데도 차이가 있다고는 말할 수 없어, 귀무 가설을 기각하지 않는 판단을 내려 버리는 것을 말한다. (=실제로 약의 효과가 있는데 있다고 말할 수 없다고 판단하는 잘못)
- 제2종 오류가 일어날 확률은 b(베타)인데 제2종 오류가 일어나지 않는 확률, 즉 정말로 차이가 있을 때 차이가 있다고 올바르게 판단할 확률을 검정력(1-b)이라고 하고, 이를 80%로 설정한다.
- 검정력은 a(유의수준)와 달리 직접 통제할 수 없으며 어느 정도의 차이를 차이로 간주하는지를 나타내는 값인 효과크기가 커짐에 따라 작아진다.
- a와 b(제2종 오류가 일어날 확률) 사이에는 상충관계, 즉 한쪽이 작아지면 또 다른 한쪽은 커지는 관계가 있다.
- 효과크기는 일반적으로 얼마나 큰 효과가 있는지를 나타내는 지표이다.
- 예를 들어 2개 집단의 평균값인 경우, 단순히 평균값의 절대적인 차이에만 주목하는 것이 아니라, 원래 갖고 있는 모집단의 데이터 퍼짐에 대해 상대적으로 평가한 값을 이용한다.
- 평균값의 차이에 비해 표준편차가 클수록 2개 분포의 겹치는 부분이 커지므로, 효과크기 d는 작아지고 평균값의 차이는 검출하기 어려워진다.
- a와 b, 표본크기 n과 효과크기 d의 네 값 중 셋을 결정하면 나머지 하나는 자동으로 정해진다는 성질이 있다. 따라서 a(0.05)와 1-b(0.8)과 검출하고자 하는 효과크기 d를 미리 설정함으로써, 가설 검정에 필요한 표본크기 n을 구할 수 있다.
'데이터 분석을 위한 통계' 카테고리의 다른 글
[통계101 x 데이터 분석 | 4장] 추론통계~신뢰구간 (2) | 2025.06.24 |
---|---|
[통계 101 x 데이터 분석 | 3장] 통계분석의 기초 (1) | 2025.06.19 |
[통계 101 x 데이터 분석 | 1장 ] 통계학이란? (1) | 2025.06.10 |