본문 바로가기

데이터 분석을 위한 통계

[통계 101 x 데이터 분석 | 3장] 통계분석의 기초

3장 통계분석의 기초

3.1 데이터 유형

  1. ‘변수’는 데이터 중 공통의 측정 방법으로 얻은 같은 성질의 값을 말한다. 예를 들어 ‘키’가 있다.
  2. ‘키’, ‘몸무게’, ‘성별’ 등 변수가 여러 개인 경우 변수 간의 관계를 밝히고자 데이터를 분석할수도 있다.
  3. 통계학에서 변수의 개수는 ‘차원’이라 표현되기도 한다. 고차원의 데이터를 해석하는 경우 데이터 분석 난이도가 높아진다.
  4. 숫자, 범주 등 변수의 유형마다 분석 방법이 달라지기 때문에 데이터를 수집할 때나 분석을 실행할 때 변수가 어떤 유형인지 주의 깊게 고려하는 것이 중요하다.
  5. 숫자로 나타낼 수 있는 변수를 양적 변수라 한다. 대소 관계가 있으며, 평균값처럼 양을 계산할 수 있다.
    1. 얻을 수 있는 값이 점점이 있는 변수를 이산형 양적 변수라고 한다.
    2. 키나 몸무게 같이 간격 없이 이어지는 값으로 나타낼 수 있는 변수를 연속형 양적 변수라고 한다.
    3. 이산 변수와 연속 변수의 차이는 확률 분포의 종류와 밀접한 관계가 있다.
  6. 범주로 변수를 나타낼 때, 이를 질적 변수 또는 범주형 변수라 한다. 대소 관계가 없으며, 평균값 등의 수치 역시 정의할 수 없다.

3.2 데이터 분포

  1. 데이터가 어떤 유형의 변수인가를 염두에 두고 ‘데이터가 어떻게 분포되어 있는지’를 그래프 등으로 시각화하여 대략적인 데이터 경향을 파악하는 것이 데이터 분석의 첫 단계다.
  2. 어떤 값이 데어터에 몇 개 포함되어 있는가(도수, 빈도, 횟수)를 나타내는 그래프인 도수분포도(히스토그램)을 사용한다.
  3. 연속형 양적 변수의 경우 범위를 설정하고 그 범위에 포함되는 숫자 개수를 세어 이를 세로축에 둔다. 이 범위의 넓이를 구간폭(bin width)라고 한다. 이 범위에 따라 히스토그램의 표현이 달라지므로 주의해야 한다.
  4. 히스토그램은 분포 형태 확인이나 이상값 확인을 위해서도 중요하다. 그러나 그래프를 보는 사람의 주관적인 판단이 들어갈 수 있으므로 히스토그램을 통한 시각화와 수치적인 분석 결과 모두를 이용하여 상호보완적으로 데이터를 바라보는 것이 중요하다.
  5. 히스토그램은 대략적인 데이터 구성을 파악하는 것이 목적이지, 무엇인가 결론을 내기 위한 것이 아님을 명심해야 한다.

3.3 통계량

  1. 수집한 데이터로 이런저런 계산을 통해 얻은 값을 일반적으로 통계량이라고 하며, 다양한 통계량 계산을 통해 대상을 이해하는 과정을 데이터 분석이라고 할 수 있다.
  2. 데이터 그 자체의 성질을 기술하고 요약하는 통계량을 기술통계량이라고 하며, 평균값이 그 대표적인 예로 대략 어떤 분포인지 특정지을 수 있다.
  3. 자주 사용하는 기술통계량에는 대략적인 분포 위치를 나타내는 대푯값인 평균값, 중앙값, 최빈값이 있으며, 데이터 퍼짐 정도를 나타내는 분산과 표준편차가 있다.
  4. 분포가 좌우대칭에 가까운 봉우리 형태라면 평균값, 중앙값, 최빈값은 대체로 일치하며, 좌우 비대칭 분포라면 각각 다른 값이 되는 경향이 있다.
  5. 드물게 극단적으로 큰 값이나 작은 값은 이상값이 데이터에 포함될 때가 있다. 평균값은 계산 시 모든 값을 고려하기 때문에 이상값의 영향을 받기 쉽다. 한편 중앙값은 상대적인 크기로부터 구해지며, 가운데 있는 값만 참조하므로 이상값에는 잘 영향받지 않는다. 또한 이상값은 빈도가 낮으므로, 최빈값에도 영향을 주지 않는다.
    • 100명의 성인이 있는 마을의 연소득 데이터. 원래 평균값과 중앙값 모두 5,090만원인데, 연소득 10억원인 사장 한 사람이 이사 옴. 평균값은 6,030만원까지 증가하는 반면, 중앙값에는 거의 영향 없음.
  6. 대푯값은 매우 편리하지만, 이 값만으로 데이터를 이해하는 것은 경계해야 한다. 처음부터 히스토그램을 그려 대략적인 파악을 한 다음, 대푯값으로 적절하게 분포를 특징 지을 수 있는지 확인하는 것이 중요한 데이터 분석 작업 순서이다.
  7. 데이터 퍼짐을 평가하기 위해서는 분산 혹은 표준편차라는 통계량을 계산한다. 표본에서 구하고, 표본을 평가한다는 점을 강조하여 표본분산이나 표본표준편차라 부르기도 한다.
  8. 표본분산은 표본의 각 값과 표본평균이 어느 정도 떨어져 있는지를 평가하는 것으로 데이터 퍼짐 상태를 정량화한 통계량이다. 표본표준편차는 표본분산의 제곱근을 취한 값이다.
    • 계산상 분산과 표준편차에는 제곱근인지 아닌지의 차이만 있으며, 포함하는 정보에는 차이가 없다. 분산 단위는 원래 값 단위의 제곱이 되지만, 표준편차는 제곱근을 취하므로 원래 단위와 일치한다. 따라서 데이터 퍼짐 정도를 정량화한 지표로는 표준편차 쪽이 감각적으로 더 알기 쉽게 느껴진다.
  9. 상자 수염 그림(박스 플롯)은 이름처럼 상자와 수염으로 구성되며, 각각은 데이터의 분포를 특정 짓는 통계량을 나타낸다.
    • 제 1사분위수는 큰 쪽부터 세었을 때 1/4 위치에 있는 값, 제 3사분위수는 작은 쪽부터 세었을 때 1/4 위치에 있는 값이다. 상위 절반 또는 하위절반 위치를 가리키는 제 2사분위수는 중앙값이다.
    • 수염은 상자 길이(제1사분위수와 제3사분위수의 차이)의 1.5배 길이를 상자로부터 늘인 범위 안에서 최댓값 또는 최솟값을 가리킴. 이 범위에 포함되지 않은 값은 이상값으로 정의됨.
    • 박스 플롯은 히스토그램에서 볼 수 있는 상세한 분포 형태 정보는 포함하지 않는다.
  10. 이상값은 명확한 정의는 없으나, 평균값에서 표준편차의 2배 혹은 3배 이상 벗어난 숫자를 이상값으로 보곤 한다. - 예를 들어, 평균 50, 표준편차 15인 시험점수 데이터 분포에서 표준편차 2배가 기준이라면 20점 이하, 80점 이상이 이상값. 표준편차 3배가 기준이라면 5점 이하 95점 이상이 이상값.
  11. 실제 데이터를 해석할 때는 이상값이 실제 값이 아니라, 측정 시나 데이터 기록 시의 실수일 가능성도 고려해야 한다.

3.4 확률

  1. 통계학은 관찰한 데이터를 모집단에서 확률적으로 발생한 값으로 상정하고, 데이터 자체나 데이터의 배후에 있는 법칙을 이해하고자 하는 시도
  2. 확률이란, (발생 여부가) 불확실한 사건의 발생 가능성을 숫자로 표현한 것.
  3. 확률분포란 가로축에 확률변수를, 세로축에 그 확률변수의 발생 가능성을 표시한 분포.
  4. 현실 세계의 모집단을 수학 세계의 확률분포로 가정하고,표본 데이터는 그 확률분포에서 생성된 실현값인 것으로 가정하여 분석 진행을 하면, ‘모집단과 표본 데이터’처럼 다루기 어려운 대상이 ‘확률분포와 그 실현값’처럼 다룰 수 있는 대상으로 치환됨.
  5. 양적 확률변수라면, 확률분포를 특정짓는 양을 계산할 수 있다.
  6. ‘변수가 확률적으로 얼마나 발생하기 쉬운가’를 평균적인 값으로 나타낸 기댓값, 즉 평균이다.
  7. 확률분포가 기댓값 주변에 어느 정도 퍼졌는지를 나타내는 값은 통계량 계산에서도 등장한 분산이다.
  8. 확률변수 2개를 동시에 생각할 때의 확률분포를 동시확률분포라고 한다. 이때 두 변수 사이의 관계에 있어 중요한 ‘독립’이라는 개념은 어느 한쪽이 어떤 값을 취하든지, 다른 한쪽의 발생 확률은 변하지 않는다는 것을 뜻한다.
  9. 한쪽 확률변수 Y의 정보가 주어졌을 때(Y를 알 때), 다른 한쪽 확률변수 X의 확률을 조건부확률 P(X|Y)이다.

3.5 이론적인 확률분포

  1. 이론적인 확률분포는 수식으로 표현되며, 분포의 형태를 정하는 숫자인 파라미터(모수)를 가진다. 따라서 파라미터를 알면 확률분포의 형태를 알 수 있다.
  2. 데이터 분석의 목적이 모집단의 성질을 아는 것이라면, 이 모집단을 ‘OO이라는 파라미터를 가진 ㅁㅁ라는 확률분포’로 나타낼(근사할) 수 있다면, 모집단의 성질을 알게 된느 것이므로 데이터 분석의 목적 그자체가 된다.
  3. 통계학에서 가장 자주 등장하는 중요한 확률분포는 정규분포로, 가우스 분포라고도 부른다.
    • 이는 연속형 확률변수를 대상으로 정의된다.
    • 평균(u)을 중심으로 한 종형으로 좌우 대칭 분포이다.
    • 평균 근처에 값이 가장 많고, 평균에서 멀어질수록 적어진다.
    • 키나 몸무게 등 정규분포로 근사할 수 있는 현상이 많다.
    • u-a부터 u+a까지의 범위에 값이 있을 확률은 68%, u-2a부터 u+2a까지의 범위에 값이 있을 확률은 95%, u-3a부터 u+3a까지의 범위에 값이 있을 확률은 99.7%
    • 이러한 특징은 평균(u)이나 표준편차(a)가 달라져도 변하지 않는다.
  4. 확률변수 x 또는 데이터의 평균과 표준편차를 이용하여 계산하면 평균 0, 표준편차 1로 변환할 수 있는데 이를 표준화라고 하고 변환된 새로운 값을 z값이라고 부른다. 평균과의 거리가 표준편차의 몇 배인가를 나타내기 때문에 본래의 평균과 표준편차와 상관없이 분포 안에서 어디에 위치하는가를 알 수 있다.
    • z = x-u/a
  5. 평균과 표준편차에 기준을 두고 데이터를 나열하는 것으로, 본래 점수 자체가 아닌 분포 안에서의 위치로 평가할 수 있게 된다.