3장 통계분석의 기초
3.1 데이터 유형
- ‘변수’는 데이터 중 공통의 측정 방법으로 얻은 같은 성질의 값을 말한다. 예를 들어 ‘키’가 있다.
- ‘키’, ‘몸무게’, ‘성별’ 등 변수가 여러 개인 경우 변수 간의 관계를 밝히고자 데이터를 분석할수도 있다.
- 통계학에서 변수의 개수는 ‘차원’이라 표현되기도 한다. 고차원의 데이터를 해석하는 경우 데이터 분석 난이도가 높아진다.
- 숫자, 범주 등 변수의 유형마다 분석 방법이 달라지기 때문에 데이터를 수집할 때나 분석을 실행할 때 변수가 어떤 유형인지 주의 깊게 고려하는 것이 중요하다.
- 숫자로 나타낼 수 있는 변수를 양적 변수라 한다. 대소 관계가 있으며, 평균값처럼 양을 계산할 수 있다.
- 얻을 수 있는 값이 점점이 있는 변수를 이산형 양적 변수라고 한다.
- 키나 몸무게 같이 간격 없이 이어지는 값으로 나타낼 수 있는 변수를 연속형 양적 변수라고 한다.
- 이산 변수와 연속 변수의 차이는 확률 분포의 종류와 밀접한 관계가 있다.
- 범주로 변수를 나타낼 때, 이를 질적 변수 또는 범주형 변수라 한다. 대소 관계가 없으며, 평균값 등의 수치 역시 정의할 수 없다.
3.2 데이터 분포
- 데이터가 어떤 유형의 변수인가를 염두에 두고 ‘데이터가 어떻게 분포되어 있는지’를 그래프 등으로 시각화하여 대략적인 데이터 경향을 파악하는 것이 데이터 분석의 첫 단계다.
- 어떤 값이 데어터에 몇 개 포함되어 있는가(도수, 빈도, 횟수)를 나타내는 그래프인 도수분포도(히스토그램)을 사용한다.
- 연속형 양적 변수의 경우 범위를 설정하고 그 범위에 포함되는 숫자 개수를 세어 이를 세로축에 둔다. 이 범위의 넓이를 구간폭(bin width)라고 한다. 이 범위에 따라 히스토그램의 표현이 달라지므로 주의해야 한다.
- 히스토그램은 분포 형태 확인이나 이상값 확인을 위해서도 중요하다. 그러나 그래프를 보는 사람의 주관적인 판단이 들어갈 수 있으므로 히스토그램을 통한 시각화와 수치적인 분석 결과 모두를 이용하여 상호보완적으로 데이터를 바라보는 것이 중요하다.
- 히스토그램은 대략적인 데이터 구성을 파악하는 것이 목적이지, 무엇인가 결론을 내기 위한 것이 아님을 명심해야 한다.
3.3 통계량
- 수집한 데이터로 이런저런 계산을 통해 얻은 값을 일반적으로 통계량이라고 하며, 다양한 통계량 계산을 통해 대상을 이해하는 과정을 데이터 분석이라고 할 수 있다.
- 데이터 그 자체의 성질을 기술하고 요약하는 통계량을 기술통계량이라고 하며, 평균값이 그 대표적인 예로 대략 어떤 분포인지 특정지을 수 있다.
- 자주 사용하는 기술통계량에는 대략적인 분포 위치를 나타내는 대푯값인 평균값, 중앙값, 최빈값이 있으며, 데이터 퍼짐 정도를 나타내는 분산과 표준편차가 있다.
- 분포가 좌우대칭에 가까운 봉우리 형태라면 평균값, 중앙값, 최빈값은 대체로 일치하며, 좌우 비대칭 분포라면 각각 다른 값이 되는 경향이 있다.
- 드물게 극단적으로 큰 값이나 작은 값은 이상값이 데이터에 포함될 때가 있다. 평균값은 계산 시 모든 값을 고려하기 때문에 이상값의 영향을 받기 쉽다. 한편 중앙값은 상대적인 크기로부터 구해지며, 가운데 있는 값만 참조하므로 이상값에는 잘 영향받지 않는다. 또한 이상값은 빈도가 낮으므로, 최빈값에도 영향을 주지 않는다.
- 100명의 성인이 있는 마을의 연소득 데이터. 원래 평균값과 중앙값 모두 5,090만원인데, 연소득 10억원인 사장 한 사람이 이사 옴. 평균값은 6,030만원까지 증가하는 반면, 중앙값에는 거의 영향 없음.
- 대푯값은 매우 편리하지만, 이 값만으로 데이터를 이해하는 것은 경계해야 한다. 처음부터 히스토그램을 그려 대략적인 파악을 한 다음, 대푯값으로 적절하게 분포를 특징 지을 수 있는지 확인하는 것이 중요한 데이터 분석 작업 순서이다.
- 데이터 퍼짐을 평가하기 위해서는 분산 혹은 표준편차라는 통계량을 계산한다. 표본에서 구하고, 표본을 평가한다는 점을 강조하여 표본분산이나 표본표준편차라 부르기도 한다.
- 표본분산은 표본의 각 값과 표본평균이 어느 정도 떨어져 있는지를 평가하는 것으로 데이터 퍼짐 상태를 정량화한 통계량이다. 표본표준편차는 표본분산의 제곱근을 취한 값이다.
- 계산상 분산과 표준편차에는 제곱근인지 아닌지의 차이만 있으며, 포함하는 정보에는 차이가 없다. 분산 단위는 원래 값 단위의 제곱이 되지만, 표준편차는 제곱근을 취하므로 원래 단위와 일치한다. 따라서 데이터 퍼짐 정도를 정량화한 지표로는 표준편차 쪽이 감각적으로 더 알기 쉽게 느껴진다.
- 상자 수염 그림(박스 플롯)은 이름처럼 상자와 수염으로 구성되며, 각각은 데이터의 분포를 특정 짓는 통계량을 나타낸다.
- 제 1사분위수는 큰 쪽부터 세었을 때 1/4 위치에 있는 값, 제 3사분위수는 작은 쪽부터 세었을 때 1/4 위치에 있는 값이다. 상위 절반 또는 하위절반 위치를 가리키는 제 2사분위수는 중앙값이다.
- 수염은 상자 길이(제1사분위수와 제3사분위수의 차이)의 1.5배 길이를 상자로부터 늘인 범위 안에서 최댓값 또는 최솟값을 가리킴. 이 범위에 포함되지 않은 값은 이상값으로 정의됨.
- 박스 플롯은 히스토그램에서 볼 수 있는 상세한 분포 형태 정보는 포함하지 않는다.
- 이상값은 명확한 정의는 없으나, 평균값에서 표준편차의 2배 혹은 3배 이상 벗어난 숫자를 이상값으로 보곤 한다. - 예를 들어, 평균 50, 표준편차 15인 시험점수 데이터 분포에서 표준편차 2배가 기준이라면 20점 이하, 80점 이상이 이상값. 표준편차 3배가 기준이라면 5점 이하 95점 이상이 이상값.
- 실제 데이터를 해석할 때는 이상값이 실제 값이 아니라, 측정 시나 데이터 기록 시의 실수일 가능성도 고려해야 한다.
3.4 확률
- 통계학은 관찰한 데이터를 모집단에서 확률적으로 발생한 값으로 상정하고, 데이터 자체나 데이터의 배후에 있는 법칙을 이해하고자 하는 시도
- 확률이란, (발생 여부가) 불확실한 사건의 발생 가능성을 숫자로 표현한 것.
- 확률분포란 가로축에 확률변수를, 세로축에 그 확률변수의 발생 가능성을 표시한 분포.
- 현실 세계의 모집단을 수학 세계의 확률분포로 가정하고,표본 데이터는 그 확률분포에서 생성된 실현값인 것으로 가정하여 분석 진행을 하면, ‘모집단과 표본 데이터’처럼 다루기 어려운 대상이 ‘확률분포와 그 실현값’처럼 다룰 수 있는 대상으로 치환됨.
- 양적 확률변수라면, 확률분포를 특정짓는 양을 계산할 수 있다.
- ‘변수가 확률적으로 얼마나 발생하기 쉬운가’를 평균적인 값으로 나타낸 기댓값, 즉 평균이다.
- 확률분포가 기댓값 주변에 어느 정도 퍼졌는지를 나타내는 값은 통계량 계산에서도 등장한 분산이다.
- 확률변수 2개를 동시에 생각할 때의 확률분포를 동시확률분포라고 한다. 이때 두 변수 사이의 관계에 있어 중요한 ‘독립’이라는 개념은 어느 한쪽이 어떤 값을 취하든지, 다른 한쪽의 발생 확률은 변하지 않는다는 것을 뜻한다.
- 한쪽 확률변수 Y의 정보가 주어졌을 때(Y를 알 때), 다른 한쪽 확률변수 X의 확률을 조건부확률 P(X|Y)이다.
3.5 이론적인 확률분포
- 이론적인 확률분포는 수식으로 표현되며, 분포의 형태를 정하는 숫자인 파라미터(모수)를 가진다. 따라서 파라미터를 알면 확률분포의 형태를 알 수 있다.
- 데이터 분석의 목적이 모집단의 성질을 아는 것이라면, 이 모집단을 ‘OO이라는 파라미터를 가진 ㅁㅁ라는 확률분포’로 나타낼(근사할) 수 있다면, 모집단의 성질을 알게 된느 것이므로 데이터 분석의 목적 그자체가 된다.
- 통계학에서 가장 자주 등장하는 중요한 확률분포는 정규분포로, 가우스 분포라고도 부른다.
- 이는 연속형 확률변수를 대상으로 정의된다.
- 평균(u)을 중심으로 한 종형으로 좌우 대칭 분포이다.
- 평균 근처에 값이 가장 많고, 평균에서 멀어질수록 적어진다.
- 키나 몸무게 등 정규분포로 근사할 수 있는 현상이 많다.
- u-a부터 u+a까지의 범위에 값이 있을 확률은 68%, u-2a부터 u+2a까지의 범위에 값이 있을 확률은 95%, u-3a부터 u+3a까지의 범위에 값이 있을 확률은 99.7%
- 이러한 특징은 평균(u)이나 표준편차(a)가 달라져도 변하지 않는다.
- 확률변수 x 또는 데이터의 평균과 표준편차를 이용하여 계산하면 평균 0, 표준편차 1로 변환할 수 있는데 이를 표준화라고 하고 변환된 새로운 값을 z값이라고 부른다. 평균과의 거리가 표준편차의 몇 배인가를 나타내기 때문에 본래의 평균과 표준편차와 상관없이 분포 안에서 어디에 위치하는가를 알 수 있다.
- z = x-u/a
- 평균과 표준편차에 기준을 두고 데이터를 나열하는 것으로, 본래 점수 자체가 아닌 분포 안에서의 위치로 평가할 수 있게 된다.
'데이터 분석을 위한 통계' 카테고리의 다른 글
[통계101 x 데이터 분석 | 5장] 가설검정 (0) | 2025.07.04 |
---|---|
[통계101 x 데이터 분석 | 4장] 추론통계~신뢰구간 (2) | 2025.06.24 |
[통계 101 x 데이터 분석 | 1장 ] 통계학이란? (1) | 2025.06.10 |