본문 바로가기

전체 글

(67)
[통계101 x 데이터 분석 | 4장] 추론통계~신뢰구간 4.1 추론통계를 배우기 전에모집단에서 표본의 관계를 확률변수와 실현값의 관계로 바꾸어 보면 “얻은 표본으로 모집단을 추정한다”라는 원래 목표를 “얻은 실현값으로 이 값을 발생시킨 확률분포를 추정한다”라는 목표로 바꾸어 말할 수 있다.현실세계에서의 분포는 수학적으로 다룰 수 없을 때가 대부분이라, 수학적으로 다룰 수 있는 확률분포(모형)에 근사하여 작업을 진행하면, 모집단의 추정이 용이해진다. 이를 모형화라고 한다.만약 정규분포로 근사할 수 있다면, 평균과 표준편차같은 두가지 파라미터만으로 분포를 기술할 수 있게 되며, t분포는 실로 이와 같이 모집단이 정규분포라는 가정하에 이용할 수 있는 분포이다.이처럼 이론적인 확률분포로 근사하는 행위는 모형을 통해 현실 세계를 바라보는 것임을 명심해야 한다.모집단에..
[아티클8] AI 시대, 데이터 분석가는 없어질까? 원문 링크https://brunch.co.kr/@maven/291핵심 키워드(기사 혹은 책에 등장하는 핵심 키워드 3~5개 + 간단한 설명)API(Application Programming Interface): 어플리케이션을 프로그래밍하는데 필요한 인터페이스로서 IT 서비스 내에서 정보의 소통이 일어나는 서버와 클라이언트 사이에서, 서로 어떻게 정보를 주고받을지 미리 형태를 정해놓은 것 / 데이터를 주고 받기 위해 정리된 약속, 대화의 규칙할루시네이션: 인공지능이 정확하지 않거나 사실이 아닌 조작된 정보를 생성하는 것데이터 분석의 대중화: 대통령 선거에 현대적 여론조사가 도입되면서부터 대중화되기 시작했다. 2016년 다보스 포럼에서 ‘클라우스 슈밥’ 의장이 빅데이터의 미래 가치를 선포하고, 같은 해 이세..
[통계 101 x 데이터 분석 | 3장] 통계분석의 기초 3장 통계분석의 기초3.1 데이터 유형‘변수’는 데이터 중 공통의 측정 방법으로 얻은 같은 성질의 값을 말한다. 예를 들어 ‘키’가 있다.‘키’, ‘몸무게’, ‘성별’ 등 변수가 여러 개인 경우 변수 간의 관계를 밝히고자 데이터를 분석할수도 있다.통계학에서 변수의 개수는 ‘차원’이라 표현되기도 한다. 고차원의 데이터를 해석하는 경우 데이터 분석 난이도가 높아진다.숫자, 범주 등 변수의 유형마다 분석 방법이 달라지기 때문에 데이터를 수집할 때나 분석을 실행할 때 변수가 어떤 유형인지 주의 깊게 고려하는 것이 중요하다.숫자로 나타낼 수 있는 변수를 양적 변수라 한다. 대소 관계가 있으며, 평균값처럼 양을 계산할 수 있다.얻을 수 있는 값이 점점이 있는 변수를 이산형 양적 변수라고 한다.키나 몸무게 같이 간격..