본문 바로가기

데이터 분석을 위한 통계

[통계101 x 데이터 분석 | 5장] 가설검정

5장 가설검정

5.1 가설검정의 원리

  1. 가설검정이란 분석자가 세운 가설을 검증하기 위한 방법이다. 가설검정에서는 p값(p-value)이라는 수치를 계산하여 가설을 지지하는지 여부를 판단한다.
  2. 미리 세운 가설을 검증하는 접근법을 확증적자료분석이라 하고, 가설을 미리 세우지 않고, 전체 데이터를 탐색적으로 해석하는 접근법을 탐색적 자료분석이라 한다. 이는 데이터의 특징이나 경향을 파악하거나, 가설 후보를 찾는 것을 목적으로 한다.
  3. 어떤 조치를 취한 집단을 실험군, 실험군과 대조/비교를 위해 마련한 집단을 대조군이라 한다.
  4. 귀무가설과 대립가설
    • 귀무가설: 신약에 효과가 없다 (모집단 A의 평균 = 모집단 B의 평균)
    • 대립가설: 신약에 효과가 있다 (모집단 A의 평균 =/= 모집단 B의 평균)

→ 밝히고자 하는 가설의 부정명제를 귀무가설, 밝히고 싶은 가설을 대립가설이라 한다.

  1. 귀무가설은 일반적으로 어떤 하나의 상태를 생각한다.
    • 가설검정에서는 상정한 가설, ‘신약에 효과가 있다’를 확인하고자 그 부정 명제인 귀무가설을 세우고, 이 귀무가설이 틀렸음을 주장하는 것으로 대립가설을 지지한다는 흐름을 취한다.
    • 밝히고자 하는 명제가 잘못되었다고 가정한 뒤, 모순을 발견함으로써 명제를 증명하는 귀류법과 비슷한 논리이다.
  2. 모집단에서 얻은 표본 평균 a,b가 통상 모집단 평균 ua, ub와 어긋남이 있는 것은 데이터 퍼짐이 있는 모집단에서 무작위로 표본을 추출할 때 생기는 어쩔 수 없는 오차이다. 그러므로 귀무가설 ua =ub가 옳다 하더라도, a≠b가 된다는 것을 알 수 있다.
    • 이는 약에 아무 효과가 없더라도 a≠b이므로, 표본평균에는 차이가 생긴다는 것을 의미하고, 그렇기에 표본평균의 차이가 귀무가설이 옳을 때도 생기는 단순한 데이터 퍼짐인지, 아니면 정말로 약의 효과인지를 구분할 필요가 있다.
      • 이 사고방식이 가설검정의 바탕이 된다.
  3. 두 모집단 평균이 ua=ub가 동일한 세계를 상상한다. (=귀무가설이 옳다고 가정한다.)
    • 이 세계의 모집단 a,b에서 각각 표본을 추출한다.
    • 이 작업을 여러번 반복했다고 치고, 표본평균의 차이를 히스토그램으로 그린다. (이때 표본차이는 평균적으로 0이며, 0에 가까운 값이 나오기가 쉽다.)
    • 현실로 돌아와 실제 데이터로 계산한 표본평균의 차이를 떠올려 보자.
    • 이 현실의 값은 귀무가설이 옳은 가상 세계에서는 어떤 빈도로 발생할까?
      • 가상 세계에서 극히 드물다 → 가상 세계가 틀렸다 → 즉, ‘귀무가설이 옳다’는 가정은 틀렸다
      • 현실에서 얻은 데이터가 귀무가설이 옳은 가상 세계에서는 얼마나 나타나기 쉬운가, 또는 어려운가를 평가하고자 p값(p-value)을 계산한다.
      • p값(p-value)은 확률이므로 0이상 1 이하이다.
      • 예를 들어, 현실에서 얻은 평균값의 차이가 +10이고 p=0.01이라면, 귀무가설이 옳은 세계에서 평균값의 차이가 +10 이상이거나 -10 이하가 될 확률은 1%이다.
  4. p값이 작다는 것은 귀무가설이 옳은 세계에서는 현실 데이터가 잘 나타나지 않는다는 뜻이므로, p값은 귀무가설과 현실 데이터 간의 괴리 정도를 평가하고 있는 셈이다.
  5. 일반적으로 p값이 0.05 이하인 경우, 귀무가설 하에서 현실데이터는 나타나기 어렵다고 생각하고, 귀무가설을 기각하고 대립가설을 채택한다.
    • 이때 평균값의 차이는 ‘통계적으로 유의미한 차이가 있다’라고 표현한다.
    • 반대로 p값이 0.05를 상회하는 경우 귀무가설을 기각할 수 없으며, ‘통계적으로 유의미한 차이는 발견하지 못했다’라는 결과가 된다. 이는 귀무가설이 옳다는 것이 아니라, 틀렸다고 말할 수 없다는 뜻이다.

5.2 가설검정 시행

  1. 실제 값이 귀무가설이 옳을 때의 t분포 내 어디에 위치하는지 구한 뒤, 그 이상의 극단적인 값이 나올 확률을 구한 것이 p값이다. 만약 t=-2.3이라면 t가 -2.3 이하일 확률과 +2.3 이상일 확률을 각각 구하면 된다.
  2. p값 계산은 신뢰구간 계산과 무척 닮았다.
    • 모집단 평균의 차의 95% 신뢰구간이 0에 걸치는지 여부와, p값이 0.05를 밑도는지 여부는 등치이다.
    • 실제 값인 표본평균으로 모집단 평균을 추정하는 것이 신뢰구간이며, 귀무가설을 가정해 모집단 평균을 ua-ub=0으로 고정했을 때의 표본평균이 어떤 값이 될 것인지를 구하는 것이 가설 검정이다.
  3. 통계적으로 유의미한 차이를 발견할 수 없었다는 것은 귀무가설을 지지한다는 것이 아니라, 귀무가설과 대립가설 중 어느 쪽도 지지할 수 없어 결론을 보류한다는 판단임을 주의해야 한다.

5.4 제1종 오류와 제2종 오류

  1. 제1종 오류는 실제로는 아무런 차이가 없음에도 차이가 있다고 판단해버리는 잘못 (=실제로 약의 효과가 없는데도 있다고 주장하는 경우)
    • a=0.05 (유의수준이 0.05)란, 귀무가설이 옳을 때 평균적으로 20번 중 1번 정도는 귀무가설을 착오로 기각하고 대립가설을 채택한다는 뜻.
    • 이 조건에서 전혀 효과가 없는 약을 20종류 준비하고 각 약의 효과를 검증하면, 평균적으로 1종류의 약에는 통계적으로 유의미한 차이가 나타나 약 효과가 있다고 주장하게 되는 것.
  2. 제2종 오류란 정말로 차이가 있는데도 차이가 있다고는 말할 수 없어, 귀무 가설을 기각하지 않는 판단을 내려 버리는 것을 말한다. (=실제로 약의 효과가 있는데 있다고 말할 수 없다고 판단하는 잘못)
    • 제2종 오류가 일어날 확률은 b(베타)인데 제2종 오류가 일어나지 않는 확률, 즉 정말로 차이가 있을 때 차이가 있다고 올바르게 판단할 확률을 검정력(1-b)이라고 하고, 이를 80%로 설정한다.
    • 검정력은 a(유의수준)와 달리 직접 통제할 수 없으며 어느 정도의 차이를 차이로 간주하는지를 나타내는 값인 효과크기가 커짐에 따라 작아진다.
  3. a와 b(제2종 오류가 일어날 확률) 사이에는 상충관계, 즉 한쪽이 작아지면 또 다른 한쪽은 커지는 관계가 있다.
  4. 효과크기는 일반적으로 얼마나 큰 효과가 있는지를 나타내는 지표이다.
    • 예를 들어 2개 집단의 평균값인 경우, 단순히 평균값의 절대적인 차이에만 주목하는 것이 아니라, 원래 갖고 있는 모집단의 데이터 퍼짐에 대해 상대적으로 평가한 값을 이용한다.
    • 평균값의 차이에 비해 표준편차가 클수록 2개 분포의 겹치는 부분이 커지므로, 효과크기 d는 작아지고 평균값의 차이는 검출하기 어려워진다.
  5. a와 b, 표본크기 n과 효과크기 d의 네 값 중 셋을 결정하면 나머지 하나는 자동으로 정해진다는 성질이 있다. 따라서 a(0.05)와 1-b(0.8)과 검출하고자 하는 효과크기 d를 미리 설정함으로써, 가설 검정에 필요한 표본크기 n을 구할 수 있다.