4.1 추론통계를 배우기 전에
- 모집단에서 표본의 관계를 확률변수와 실현값의 관계로 바꾸어 보면 “얻은 표본으로 모집단을 추정한다”라는 원래 목표를 “얻은 실현값으로 이 값을 발생시킨 확률분포를 추정한다”라는 목표로 바꾸어 말할 수 있다.
- 현실세계에서의 분포는 수학적으로 다룰 수 없을 때가 대부분이라, 수학적으로 다룰 수 있는 확률분포(모형)에 근사하여 작업을 진행하면, 모집단의 추정이 용이해진다. 이를 모형화라고 한다.
- 만약 정규분포로 근사할 수 있다면, 평균과 표준편차같은 두가지 파라미터만으로 분포를 기술할 수 있게 되며, t분포는 실로 이와 같이 모집단이 정규분포라는 가정하에 이용할 수 있는 분포이다.
- 이처럼 이론적인 확률분포로 근사하는 행위는 모형을 통해 현실 세계를 바라보는 것임을 명심해야 한다.
- 모집단에서 표본을 얻을 때는 모집단에 포함된 요소를 하나씩 무작위로 선택하여 추출하는 방식인 ‘무작위 추출’을 하는 것이 중요하다.
- 데이터의 실현값은 확률분포에서 무작위로 발생하도록 한 값이라고 생각해야 하기 때문이다.
- 난수를 이용하여 표본을 정하는 단순무작위추출법이 가장 이상적인 무작위추출방법이지만, 노력과 시간 비용이 듦. 자주 쓰이는 것은 모집단을 몇 개의 층(집단)으로 미리 나눈 뒤, 각 층에서 필요한 수의 조사 대상을 무작위로 추출하는 방법이다.
- 모집단에 대해 추정한 결과를 어느 정도 일반화할 수 있는가는, 각 분야 고유의 지식(도메인 지식)에 따라 달라진다.
4.2 표본오차와 신뢰구간
- 정말로 알고 싶은 것=모집단의 평균, 모집단을 직접 알 수는 없으므로 모집단의 일부인 크기 n인 표본을 모집단에서 무작위로 추출하여 이 표본(데이터)에서 모집단 평균을 추정
- 모집단의 평균이나 표준편차 등은 고정된 값이지만, 모집단분포에서 얻은 표본은 확률적으로 변하는 확률변수라는 사실을 염두에 두어야 한다.
- 표본오차는 정말로 알고 싶은 것(모집단)과 실제로 손 안에 있는 데이터(표본)에는 어긋남(오차)가 발생하는 것이다.
- 표본오차는 데이터 퍼짐이 있는 모집단에서 확률적으로 무작위 표본을 고르는 데서 발생하는, 피할 수 없는 오차로, 평균값에 국한되지 않으며 모집단의 다양한 성질에 대해서 일반적으로 발생하는 것이다.
- 표본은 모집단의 성질과 정확히 일치하지 않고, 확률오차를 수반한다. 따라서 표본으로 모집단의 성질을 정확히 알아맞히기는 불가능하다.
- 표본평균과 모집단평균의 관계에서는 큰 수의 법칙이 성립한다. ‘표본크기 n이 커질수록 표본평균이 모집단평균에 한없이 가까워진다.’
- 즉, 표본오차(표본평균-모집단평균)가 0에 한없이 가까워진다.
- 그러나 n(표본크기)을 무한대로 하더라도 표본평균과 모집단평균은 일치하지 않는다.
- 특정 표본크기 n일 때, 표본평균 또는 표본 오차 역시 확률 변수이다.
- 표본오차의 확률분포를 알면 어느 정도 크기의 오차가 어느 정도의 확률로 나타나는지를 알 수 있게 된다.
- 중심극한정리: 모집단이 어떤 분포이든 간에, 표본크기 n이 커질수록 표본평균의 분포는 정규분포로 근사할 수 있다는 것이다.
- 표본평균의 분포는 표본크기 n으로 표본을 추출하고, 표본평균을 계산하는 작업을 몇 번이고 반복해서 표본평균을 한데 모아 히스토그램을 그린다는 것.
- 이때 평균은 모집단 평균 u, 표준편차는 모집단의 표준편차 a와 표본크기를 이용하여 a/√n으로 나타낸다.
- 이로써 표본평균은 모집단평균 u를 중심으로 분포한다는 것, 그리고 좌우에 표준편차 a/√n의 폭으로 퍼져 분포한다는 것을 알 수 있음.
- n이 커질수록 a/√n이 작아지며, 이는 표본평균과 모집단평균 사이의 어긋남이 평균적으로 작아진다는 것을 뜻함.
- 일반적으로 모집단의 성질을 추정하는 데 사용하는 통계량을 추정량이라고 한다.
- 추정량의 평균값이 모집단의 성질과 일치할 때의 추정량은 비편향추정량이라 한다. 비편향추정량은 매번 얻을 때마다 확률적으로 다른 값이 되지만, 평균으로 보면 모집단의 성질을 과대하지도 과소하지도 않게 나타내는 양을 뜻한다.
- 표본평균은 모집단평균을 편향되지 않게 추정하는 비편향추정량이다.
- 표본표준편차의 경우 모집단의 표준편차를 과소평가한다는 문제가 있어, n-1로 나눈 값이 모집단 표준편차의 비편향추정량이다. n이 아닌 n-1로 나누어 과소평가를 보정하는 것이다.
- 표본에서 추정한 비편향표준편차 s를 표준편차 대신 사용한 s/√n을 표준오차로 삼는다.
- 신뢰구간은, 얼마나 큰오차가 어느 정도의 확률로 나타나는가를 알기 위해, 즉 간단하게 오차를 정량화하기 위해 도입한 개념이다.
- ㅇㅇ% 신뢰구간을 해석하면 “ㅇㅇ%의 확률로 이 구간에 모집단평균이 있다”이다. 단, 확률변수는 모집단평균이 아니라 표본평균이다. 즉 모집단평균이 확률적으로 변화하여 그 구간에 포함되는 것이 아니라, 모집단에서 펴본을 추출하여 ㅇㅇ% 신뢰구간을 구하는 작업을 100번 반복했을 때 평균적으로 그 구간에 모집단평균이 포함되는 것이 ㅇㅇ번이라는 뜻이다.
- 신뢰구간은 표본에서 구한 모집단의 추정값을 어느 정도 신뢰할 수 있는지를 나타낸다고 할 수 있다.
- 중심극한정리는 표본크기 n이 커질수록 근사적으로 성립하기때문에, 실제 데이터 분석에서 볼 수 있는 작은 표본크기의 경우 표본오차가 정규분포를 따른다고 말할 수 없다는 것, 그리고 모집단의 표준편차 대신 표본표준편차를 써야만 한다. 이때, t분포를 활용한다.
- t분포는 모집단이 정규분포라는 가정하에 미지의 모집단 표준편차를 표본으로 계산한 비편향표준편차 s로 대용했을 때, 표본평균-모집단평군을 표준오차, s/√n로 나누어 표준화한 값이 따르는 분포이다.
- 간단히, 95%라는 엄밀한 값을 얻고자 미세 조정하는 것이라 생각하면 된다.
- 표본 크기 n이 커짐에 따라, t분포는 정규분포에 가까워진다.
- 보다 신뢰 가능한 평균값을 추정하고 싶을 때는 오차분포의 너비를 나타내는 표준오차 s/√n를 작게 만들면 되는데, 분자인 비편향표준편차 s를 작게 하거나, 분모인 표본크기 n을 크게 하는 두 가지 방법이 있다.
- s는 모집단 데이터 퍼짐이라는 모집단 그 자체의 성질에서 유래하기에 작게 만들기 매우 어렵지만, 측정한 데이터 퍼짐 정도를 줄일 순 있다.
- 큰 표본을 추출하는 데는 비용이 들기에 n을 크게 하기는 쉽지 않다.
- 표본크기 n이 작아도 적용 가능한 t분포에는, ‘정규분포에서 얻은 데이터’라는 가정이 필요하다. 즉, t분포는 데이터를 정규분포라는 모형에서 얻었을 때의 표본오차가 따르는 분포다.
- 정규분포와 현저하게 다른 분포에서 데이터를 얻었을 경우, 95% 신뢰구간을 구해도 95%에서 벗어날 수 있어 주의해야 한다. 단, 표본크기 n이 클 때는 중심극한정리에 따라 모집단이 정규분포가 아니더라도 표본평균을 정규분포로 근사할 수 있으므로 신뢰구간은 정확해진다.
유독 헷갈리는 개념이 많았던 4장.
읽을 땐 이해가 되는데 뒤돌아서면 또 긴가민가 한다.
가설검정과 t분포의 중요성은 프로젝트 하면서 잘 알았으니까,
복습 꾸준히 해서 개념 확실하게 이해하기!
'데이터 분석을 위한 통계' 카테고리의 다른 글
[통계101 x 데이터 분석 | 5장] 가설검정 (0) | 2025.07.04 |
---|---|
[통계 101 x 데이터 분석 | 3장] 통계분석의 기초 (1) | 2025.06.19 |
[통계 101 x 데이터 분석 | 1장 ] 통계학이란? (1) | 2025.06.10 |