본문 바로가기

데이터 분석을 위한 통계

[통계101 x 데이터 분석 | 4장] 추론통계~신뢰구간

4.1 추론통계를 배우기 전에

  1. 모집단에서 표본의 관계를 확률변수와 실현값의 관계로 바꾸어 보면 “얻은 표본으로 모집단을 추정한다”라는 원래 목표를 “얻은 실현값으로 이 값을 발생시킨 확률분포를 추정한다”라는 목표로 바꾸어 말할 수 있다.
  2. 현실세계에서의 분포는 수학적으로 다룰 수 없을 때가 대부분이라, 수학적으로 다룰 수 있는 확률분포(모형)에 근사하여 작업을 진행하면, 모집단의 추정이 용이해진다. 이를 모형화라고 한다.
  3. 만약 정규분포로 근사할 수 있다면, 평균과 표준편차같은 두가지 파라미터만으로 분포를 기술할 수 있게 되며, t분포는 실로 이와 같이 모집단이 정규분포라는 가정하에 이용할 수 있는 분포이다.
  4. 이처럼 이론적인 확률분포로 근사하는 행위는 모형을 통해 현실 세계를 바라보는 것임을 명심해야 한다.
  5. 모집단에서 표본을 얻을 때는 모집단에 포함된 요소를 하나씩 무작위로 선택하여 추출하는 방식인 ‘무작위 추출’을 하는 것이 중요하다.
    • 데이터의 실현값은 확률분포에서 무작위로 발생하도록 한 값이라고 생각해야 하기 때문이다.
    • 난수를 이용하여 표본을 정하는 단순무작위추출법이 가장 이상적인 무작위추출방법이지만, 노력과 시간 비용이 듦. 자주 쓰이는 것은 모집단을 몇 개의 층(집단)으로 미리 나눈 뒤, 각 층에서 필요한 수의 조사 대상을 무작위로 추출하는 방법이다.
  6. 모집단에 대해 추정한 결과를 어느 정도 일반화할 수 있는가는, 각 분야 고유의 지식(도메인 지식)에 따라 달라진다.

 

4.2 표본오차와 신뢰구간

  1. 정말로 알고 싶은 것=모집단의 평균, 모집단을 직접 알 수는 없으므로 모집단의 일부인 크기 n인 표본을 모집단에서 무작위로 추출하여 이 표본(데이터)에서 모집단 평균을 추정
  2. 모집단의 평균이나 표준편차 등은 고정된 값이지만, 모집단분포에서 얻은 표본은 확률적으로 변하는 확률변수라는 사실을 염두에 두어야 한다.
  3. 표본오차는 정말로 알고 싶은 것(모집단)과 실제로 손 안에 있는 데이터(표본)에는 어긋남(오차)가 발생하는 것이다.
    • 표본오차는 데이터 퍼짐이 있는 모집단에서 확률적으로 무작위 표본을 고르는 데서 발생하는, 피할 수 없는 오차로, 평균값에 국한되지 않으며 모집단의 다양한 성질에 대해서 일반적으로 발생하는 것이다.
  4. 표본은 모집단의 성질과 정확히 일치하지 않고, 확률오차를 수반한다. 따라서 표본으로 모집단의 성질을 정확히 알아맞히기는 불가능하다.
  5. 표본평균과 모집단평균의 관계에서는 큰 수의 법칙이 성립한다. ‘표본크기 n이 커질수록 표본평균이 모집단평균에 한없이 가까워진다.’
    • 즉, 표본오차(표본평균-모집단평균)가 0에 한없이 가까워진다.
  6. 그러나 n(표본크기)을 무한대로 하더라도 표본평균과 모집단평균은 일치하지 않는다.
  7. 특정 표본크기 n일 때, 표본평균 또는 표본 오차 역시 확률 변수이다.
  8. 표본오차의 확률분포를 알면 어느 정도 크기의 오차가 어느 정도의 확률로 나타나는지를 알 수 있게 된다.
  9. 중심극한정리: 모집단이 어떤 분포이든 간에, 표본크기 n이 커질수록 표본평균의 분포는 정규분포로 근사할 수 있다는 것이다.
    • 표본평균의 분포는 표본크기 n으로 표본을 추출하고, 표본평균을 계산하는 작업을 몇 번이고 반복해서 표본평균을 한데 모아 히스토그램을 그린다는 것.
    • 이때 평균은 모집단 평균 u, 표준편차는 모집단의 표준편차 a와 표본크기를 이용하여 a/√n으로 나타낸다.
    • 이로써 표본평균은 모집단평균 u를 중심으로 분포한다는 것, 그리고 좌우에 표준편차 a/√n의 폭으로 퍼져 분포한다는 것을 알 수 있음.
    • n이 커질수록 a/√n이 작아지며, 이는 표본평균과 모집단평균 사이의 어긋남이 평균적으로 작아진다는 것을 뜻함.
  10. 일반적으로 모집단의 성질을 추정하는 데 사용하는 통계량을 추정량이라고 한다.
  11. 추정량의 평균값이 모집단의 성질과 일치할 때의 추정량은 비편향추정량이라 한다. 비편향추정량은 매번 얻을 때마다 확률적으로 다른 값이 되지만, 평균으로 보면 모집단의 성질을 과대하지도 과소하지도 않게 나타내는 양을 뜻한다.
    • 표본평균은 모집단평균을 편향되지 않게 추정하는 비편향추정량이다.
    • 표본표준편차의 경우 모집단의 표준편차를 과소평가한다는 문제가 있어, n-1로 나눈 값이 모집단 표준편차의 비편향추정량이다. n이 아닌 n-1로 나누어 과소평가를 보정하는 것이다.
  12. 표본에서 추정한 비편향표준편차 s를 표준편차 대신 사용한 s/√n을 표준오차로 삼는다.
  13. 신뢰구간은, 얼마나 큰오차가 어느 정도의 확률로 나타나는가를 알기 위해, 즉 간단하게 오차를 정량화하기 위해 도입한 개념이다.
    • ㅇㅇ% 신뢰구간을 해석하면 “ㅇㅇ%의 확률로 이 구간에 모집단평균이 있다”이다. 단, 확률변수는 모집단평균이 아니라 표본평균이다. 즉 모집단평균이 확률적으로 변화하여 그 구간에 포함되는 것이 아니라, 모집단에서 펴본을 추출하여 ㅇㅇ% 신뢰구간을 구하는 작업을 100번 반복했을 때 평균적으로 그 구간에 모집단평균이 포함되는 것이 ㅇㅇ번이라는 뜻이다.
  14. 신뢰구간은 표본에서 구한 모집단의 추정값을 어느 정도 신뢰할 수 있는지를 나타낸다고 할 수 있다.
  15. 중심극한정리는 표본크기 n이 커질수록 근사적으로 성립하기때문에, 실제 데이터 분석에서 볼 수 있는 작은 표본크기의 경우 표본오차가 정규분포를 따른다고 말할 수 없다는 것, 그리고 모집단의 표준편차 대신 표본표준편차를 써야만 한다. 이때, t분포를 활용한다.
  16. t분포는 모집단이 정규분포라는 가정하에 미지의 모집단 표준편차를 표본으로 계산한 비편향표준편차 s로 대용했을 때, 표본평균-모집단평군을 표준오차, s/√n로 나누어 표준화한 값이 따르는 분포이다.
    • 간단히, 95%라는 엄밀한 값을 얻고자 미세 조정하는 것이라 생각하면 된다.
    • 표본 크기 n이 커짐에 따라, t분포는 정규분포에 가까워진다.
  17. 보다 신뢰 가능한 평균값을 추정하고 싶을 때는 오차분포의 너비를 나타내는 표준오차 s/√n를 작게 만들면 되는데, 분자인 비편향표준편차 s를 작게 하거나, 분모인 표본크기 n을 크게 하는 두 가지 방법이 있다.
    • s는 모집단 데이터 퍼짐이라는 모집단 그 자체의 성질에서 유래하기에 작게 만들기 매우 어렵지만, 측정한 데이터 퍼짐 정도를 줄일 순 있다.
    • 큰 표본을 추출하는 데는 비용이 들기에 n을 크게 하기는 쉽지 않다.
  18. 표본크기 n이 작아도 적용 가능한 t분포에는, ‘정규분포에서 얻은 데이터’라는 가정이 필요하다. 즉, t분포는 데이터를 정규분포라는 모형에서 얻었을 때의 표본오차가 따르는 분포다.
  19. 정규분포와 현저하게 다른 분포에서 데이터를 얻었을 경우, 95% 신뢰구간을 구해도 95%에서 벗어날 수 있어 주의해야 한다. 단, 표본크기 n이 클 때는 중심극한정리에 따라 모집단이 정규분포가 아니더라도 표본평균을 정규분포로 근사할 수 있으므로 신뢰구간은 정확해진다.

 


 

 

유독 헷갈리는 개념이 많았던 4장.

읽을 땐 이해가 되는데 뒤돌아서면 또 긴가민가 한다.

가설검정과 t분포의 중요성은 프로젝트 하면서 잘 알았으니까,

복습 꾸준히 해서 개념 확실하게 이해하기!