1장 통계학이란?
1.1 데이터를 분석하다
- 데이터 분석의 주요 목적은 ‘데이터를 요약하는 것’, ‘대상을 설명하는 것’, ‘새로 얻을 데이터를 예측하는 것’이다.
- ‘대상을 설명한다’라고 하기보다, ‘대상이 가진 성질과 관계성을 명확히 밝히고 이를 이해한다’라고 바꿔 말하면 이해하기 쉬울 것.
- 설명에는 수준이 있다.
- 인과관계란 2가지 중 하나(원인)을 변화시키면, 다른 하나(결과)도 바꿀 수 있는 관계를 말한다. 인과관계를 알면 좋은 점은 원인을 바꿈으로써 원하는 결과를 얻을 수 있다는 것이다. 이때 원인을 바꾸는 것을 ‘개입’이라 한다.
- 상관관계란 한쪽이 크면 다른 한쪽도 큰(또는 한쪽이 크면 다른 한쪽은 작은) 관계를 말한다.
- 선형 상관에 한정
- 원리에 관련된 몇가지 가능성을 구별할 수 없으므로 얕은 이해라 할 수 있다. 단, 상관관계가 있다면 미지의 데이터 예측이 가능해진다.
- 미지의 데이터 예측이란 이미 얻은 데이터를 기반으로, 이후 새롭게 얻을 데이터를 예측하는 것.
- 매년 여름의 평균 기온과 그해 가을의 농작물 수확량 사이에 나타난 관계를 이용하여, 올여름 평균 기온으로부터 올가을 수확량을 예측 가능하다.
1.2 통계학의 역할
- 통계학은 데이터 퍼짐 정도가 클수록 힘을 발휘한다.
- 데이터 분석에서 통계학의 중요한 역할은, 퍼짐(산포)이 있는 데이터에 대해 설명이나 예측을 하는 것이다.
- ‘퍼짐’은 데이터에 포함된 값 하나하나의 차이를 가리키며, 이는 대상이 가진 성질이나 관계성의 본모습을 감추고 정확하게 파악할 수 없게 한다.
- 통계학은 데이터 퍼짐이나 불확실성에 대처하는 방법을 제공한다. 그 근거가 되는 것이 데이터 퍼짐이나 불확실성을 확률로 나타내는 확률론이다.
1.3 통계학의 전체 모습
- 수집한 데이터를 정리하고 요약하는 방법을 ‘기술통계’라고 한다. 기술통계에선 확보한 데이터에만 집중하면서, 데이터 자체의 성질을 이해하는 것을 목표로 한다.
- 수집한 데이터로부터 데이터의 발생원을 추정하는 방법을 추론통계라 한다. 대상을 이해하거나 미지의 데이터를 예측하기 위해서는 데이터 자체가 아니라 그 데이터의 발생원에 대해 알 필요가 있다.
- 특정 대상(주사위)의 성질을 알고 싶지만, 관측할 수 있는 것은 나온 눈을 기록한 데이터 뿐이다. 그래서 각 눈이 나올 확률을 나타내는 확률 모형에서 데이터가 생성된다고 가정하고, 데이터로부터 확률 모형의 성질을 추정하게 된다.
- 추론 통계에는 크게 두가지가 있다.
- 통계적 추론은 데이터에서 가정한 확률 모형의 성질을 추정하는 방법이다.
- 가설검정은 세운 가설과 얻은 데이터가 얼마나 들어맞는지를 평가하여, 가설을 채택할 것인가를 판단하는 방법이다.
- 데이터 유형이나 변수의 개수, 가정하는 확률 모형 등에 따라 이용하는 방법이 다르다. 또한 데이터 분석 목적에 따라 방법이 달라질 수 있다.
'이렇게 좋은 책을 이제서야 읽게 되다니...'란 생각이 들 정도로 맘에 쏙 드는, 내게 꼭 필요한 책을 시작했다.
내배캠 종료 후 했던 취업 코스(?) 미션을 완주하고 선물로 받은 책이었는데,
공짜로 받은 책이라 별 기대 없이 그냥 방치해두었었다.
그런데 데이터 분석을 위해선 통계 공부가 필요하다는 생각이 들었고 쉽게 접근할 방법이 없을까 고민하던 중에
그냥 별 생각 없이 있던 책을 집어 들었다.
근데 웬걸...?!
진짜 이 책 들고 다니면서 통계가 너무 어렵고 헷갈린다는 사람들에게 다 추천해주고 싶다.
공짜로 받았지만 돈을 내고 읽고 싶은 퀄리티랄까..
고등학생 때부터 통계 이론이 가장 헷갈려서 따로 노트까지 만들어서 공부하던
통계어려워 인간 입장에선 (아직까지) 최고의 책임이 틀림없다.
열심히 완주하고, 기록하고, 복습해서 내 껄로 만들테다.
'데이터 분석을 위한 통계' 카테고리의 다른 글
[통계101 x 데이터 분석 | 5장] 가설검정 (0) | 2025.07.04 |
---|---|
[통계101 x 데이터 분석 | 4장] 추론통계~신뢰구간 (2) | 2025.06.24 |
[통계 101 x 데이터 분석 | 3장] 통계분석의 기초 (1) | 2025.06.19 |