본문 바로가기

데이터 분석을 위한 통계

[통계 101 x 데이터 분석 | 1장 ] 통계학이란?

1장 통계학이란?

1.1 데이터를 분석하다

  1. 데이터 분석의 주요 목적은 ‘데이터를 요약하는 것’, ‘대상을 설명하는 것’, ‘새로 얻을 데이터를 예측하는 것이다.
  2. ‘대상을 설명한다’라고 하기보다, ‘대상이 가진 성질과 관계성을 명확히 밝히고 이를 이해한다’라고 바꿔 말하면 이해하기 쉬울 것.
  3. 설명에는 수준이 있다.
  4. 인과관계란 2가지 중 하나(원인)을 변화시키면, 다른 하나(결과)도 바꿀 수 있는 관계를 말한다. 인과관계를 알면 좋은 점은 원인을 바꿈으로써 원하는 결과를 얻을 수 있다는 것이다. 이때 원인을 바꾸는 것을 ‘개입’이라 한다.
  5. 상관관계란 한쪽이 크면 다른 한쪽도 큰(또는 한쪽이 크면 다른 한쪽은 작은) 관계를 말한다.
    1. 선형 상관에 한정
  6. 원리에 관련된 몇가지 가능성을 구별할 수 없으므로 얕은 이해라 할 수 있다. 단, 상관관계가 있다면 미지의 데이터 예측이 가능해진다.
  7. 미지의 데이터 예측이란 이미 얻은 데이터를 기반으로, 이후 새롭게 얻을 데이터를 예측하는 것.
    1. 매년 여름의 평균 기온과 그해 가을의 농작물 수확량 사이에 나타난 관계를 이용하여, 올여름 평균 기온으로부터 올가을 수확량을 예측 가능하다.

1.2 통계학의 역할

  1. 통계학은 데이터 퍼짐 정도가 클수록 힘을 발휘한다.
  2. 데이터 분석에서 통계학의 중요한 역할은, 퍼짐(산포)이 있는 데이터에 대해 설명이나 예측을 하는 것이다.
  3. ‘퍼짐’은 데이터에 포함된 값 하나하나의 차이를 가리키며, 이는 대상이 가진 성질이나 관계성의 본모습을 감추고 정확하게 파악할 수 없게 한다.
  4. 통계학은 데이터 퍼짐이나 불확실성에 대처하는 방법을 제공한다. 그 근거가 되는 것이 데이터 퍼짐이나 불확실성을 확률로 나타내는 확률론이다.

1.3 통계학의 전체 모습

  1. 수집한 데이터를 정리하고 요약하는 방법을 ‘기술통계’라고 한다. 기술통계에선 확보한 데이터에만 집중하면서, 데이터 자체의 성질을 이해하는 것을 목표로 한다.
  2. 수집한 데이터로부터 데이터의 발생원을 추정하는 방법을 추론통계라 한다. 대상을 이해하거나 미지의 데이터를 예측하기 위해서는 데이터 자체가 아니라 그 데이터의 발생원에 대해 알 필요가 있다.
  3. 특정 대상(주사위)의 성질을 알고 싶지만, 관측할 수 있는 것은 나온 눈을 기록한 데이터 뿐이다. 그래서 각 눈이 나올 확률을 나타내는 확률 모형에서 데이터가 생성된다고 가정하고, 데이터로부터 확률 모형의 성질을 추정하게 된다.
  4. 추론 통계에는 크게 두가지가 있다.
  5. 통계적 추론은 데이터에서 가정한 확률 모형의 성질을 추정하는 방법이다.
  6. 가설검정은 세운 가설과 얻은 데이터가 얼마나 들어맞는지를 평가하여, 가설을 채택할 것인가를 판단하는 방법이다.
  7. 데이터 유형이나 변수의 개수, 가정하는 확률 모형 등에 따라 이용하는 방법이 다르다. 또한 데이터 분석 목적에 따라 방법이 달라질 수 있다.

 


 

 

'이렇게 좋은 책을 이제서야 읽게 되다니...'란 생각이 들 정도로 맘에 쏙 드는, 내게 꼭 필요한 책을 시작했다.

 

내배캠 종료 후 했던 취업 코스(?) 미션을 완주하고 선물로 받은 책이었는데,

공짜로 받은 책이라 별 기대 없이 그냥 방치해두었었다.

그런데 데이터 분석을 위해선 통계 공부가 필요하다는 생각이 들었고 쉽게 접근할 방법이 없을까 고민하던 중에

그냥 별 생각 없이 있던 책을 집어 들었다. 

 

근데 웬걸...?!

진짜 이 책 들고 다니면서 통계가 너무 어렵고 헷갈린다는 사람들에게 다 추천해주고 싶다.

공짜로 받았지만 돈을 내고 읽고 싶은 퀄리티랄까..

 

고등학생 때부터 통계 이론이 가장 헷갈려서 따로 노트까지 만들어서 공부하던

통계어려워 인간 입장에선 (아직까지) 최고의 책임이 틀림없다.

 

열심히 완주하고, 기록하고, 복습해서 내 껄로 만들테다.