원문 링크
핵심 키워드
(기사 혹은 책에 등장하는 핵심 키워드 3~5개 + 간단한 설명)
- 문제 정의: 문제는 분석의 대상이자 목적이다. 공공 분야에서 문제 정의가 어려운 이유는 많은 사람들이 공감할 만한 가치가 있는 문제를 찾기 어렵고, 데이터의 제약사항을 극복해야 하기 때문이다.
- 데이터 클리닝: ‘데이터 과학의 80%는 데이터 클리닝에 소비되고, 나머지 20%는 데이터 클리닝하는 시간을 불평하는데 쓰인다’ by Kaggle 창립자 Anthony Goldbloom 중복값 제거, 결측값 보정, 데이터 연계/통합, 데이터 구조 변경, 변수 추가 등이 필요하다.
- 데이터 모델링: 분석은 ‘나누고 쪼개는 과정’인데, 데이터 분석 과정에서 분석 대상을 나누고 쪼개면서 그 결과를 사실 테이블과 차원 테이블로 구성하는 것이 모델링의 핵심. </aside>
느낀 점
(기사를 읽고 느낀 인사이트 세가지 이상 작성)
- 공공 데이터를 분석할 때 가장 중요한 것은 ‘많은 사람들이 공감할 만한 가치’를 찾는 것이라는 필자의 설명이 와닿았다. 공모전 수상작들을 살펴 보면서, 이 사회 전면에 드러나진 않았으나 꼭 해결되어야 하는 문제를 데이터를 통해 발견하고, 이를 해결하기 위한 방법을 제안하는 것 역시 공공 데이터 분석의 중요한 목적인 것 같았다.
- 난 시각화는 분석의 가장 마지막 단계에 결과를 정리하며 해야 하는 태스크라고 생각하고 있었는데, 사실 시각화는 경향성을 살펴보는 탐색 단계에서 가장 중요하다는 것을 알 수 있었다.
- 데이터 전처리가 중요하다는 사실은 알고 있었지만, 데이터 과학의 80%가 데이터 클리닝에 쓰인다는 이야기가 있을 정도로 중요한 단계라는 건 실감하지 못했던 것 같다. 프로젝트 시작 전에 이 아티클을 읽어서 다행이다! </aside>