본문 바로가기

분류 전체보기

(67)
[통계101 x 데이터 분석 | 5장] 가설검정 5장 가설검정5.1 가설검정의 원리가설검정이란 분석자가 세운 가설을 검증하기 위한 방법이다. 가설검정에서는 p값(p-value)이라는 수치를 계산하여 가설을 지지하는지 여부를 판단한다.미리 세운 가설을 검증하는 접근법을 확증적자료분석이라 하고, 가설을 미리 세우지 않고, 전체 데이터를 탐색적으로 해석하는 접근법을 탐색적 자료분석이라 한다. 이는 데이터의 특징이나 경향을 파악하거나, 가설 후보를 찾는 것을 목적으로 한다.어떤 조치를 취한 집단을 실험군, 실험군과 대조/비교를 위해 마련한 집단을 대조군이라 한다.귀무가설과 대립가설귀무가설: 신약에 효과가 없다 (모집단 A의 평균 = 모집단 B의 평균)대립가설: 신약에 효과가 있다 (모집단 A의 평균 =/= 모집단 B의 평균)→ 밝히고자 하는 가설의 부정명제를..
[아티클 10] 기술과 혁신 - 혜성같이 등장한 이커머스 골리앗 원문 링크http://niceq.xehub.net/202403-innovation/혜성같이-등장한-이커머스-골리앗핵심 키워드(기사 혹은 책에 등장하는 핵심 키워드 3~5개 + 간단한 설명)헥토콘 기업: 유니콘과 100배를 이르는 ‘헥토’의 합성어로 기업 가치 1조원인 유니콘 기업의 100배의 가치를 지닌 스타트업을 말한다. 10배의 경우 ‘데카콘’이라고 칭한다. 틱톡의 모기업인 바이트댄스는 시가총액 500조 이상으로 평가받으며, 쉬인의 경우 100조원이 넘는 금액을 투자 유치한 바 있다.핀둬둬: 나스닥에 상장된 테무의 모기업으로, 중국의 전자상거래 플랫폼 기업이다. 기업가치는 23년 기준 총 240조로 23년 말 업계 1위 기업인 알리바바를 처음으로 뛰어넘기도 했다.쉬인(SHEIN): 중국의 온라인 패스..
[아티클9] 데이터 분석가에게 필요한 '문제 해결력'이란 무엇일까? 원문 링크https://datarian.io/blog/problem-solving-skills 핵심 키워드(기사 혹은 책에 등장하는 핵심 키워드 3~5개 + 간단한 설명)데이터 분석가: 문제를 정확히 발견하고, 해결을 위한 단서와 방향을 제시하는 사람문제 발견 능력: 지표를 주기적으로 모니터링하면서 평소와 다른 점을 빠르게 감지하고, 이상 징후를 포착하는 것에서 시작하는 문제 조기 발견 능력이 중요. 예를 들어, 일별 매출이나 사용자 수와 같은 핵심 지표에서 평소와 다른 패턴이 나타났을 때, 단순히 수치의 차이를 넘어서 그 뒤에 숨겨진 문제의 가능성을 직관적으로 포착하는 능력을 말한다.원인 진단 및 맥락 이해 능력: 원인을 정확하게 진단하고 맥락을 이해하는 능력.해결 방향 제안 능력: 데이터를 기반으로 ..
[통계101 x 데이터 분석 | 4장] 추론통계~신뢰구간 4.1 추론통계를 배우기 전에모집단에서 표본의 관계를 확률변수와 실현값의 관계로 바꾸어 보면 “얻은 표본으로 모집단을 추정한다”라는 원래 목표를 “얻은 실현값으로 이 값을 발생시킨 확률분포를 추정한다”라는 목표로 바꾸어 말할 수 있다.현실세계에서의 분포는 수학적으로 다룰 수 없을 때가 대부분이라, 수학적으로 다룰 수 있는 확률분포(모형)에 근사하여 작업을 진행하면, 모집단의 추정이 용이해진다. 이를 모형화라고 한다.만약 정규분포로 근사할 수 있다면, 평균과 표준편차같은 두가지 파라미터만으로 분포를 기술할 수 있게 되며, t분포는 실로 이와 같이 모집단이 정규분포라는 가정하에 이용할 수 있는 분포이다.이처럼 이론적인 확률분포로 근사하는 행위는 모형을 통해 현실 세계를 바라보는 것임을 명심해야 한다.모집단에..
[아티클8] AI 시대, 데이터 분석가는 없어질까? 원문 링크https://brunch.co.kr/@maven/291핵심 키워드(기사 혹은 책에 등장하는 핵심 키워드 3~5개 + 간단한 설명)API(Application Programming Interface): 어플리케이션을 프로그래밍하는데 필요한 인터페이스로서 IT 서비스 내에서 정보의 소통이 일어나는 서버와 클라이언트 사이에서, 서로 어떻게 정보를 주고받을지 미리 형태를 정해놓은 것 / 데이터를 주고 받기 위해 정리된 약속, 대화의 규칙할루시네이션: 인공지능이 정확하지 않거나 사실이 아닌 조작된 정보를 생성하는 것데이터 분석의 대중화: 대통령 선거에 현대적 여론조사가 도입되면서부터 대중화되기 시작했다. 2016년 다보스 포럼에서 ‘클라우스 슈밥’ 의장이 빅데이터의 미래 가치를 선포하고, 같은 해 이세..
[통계 101 x 데이터 분석 | 3장] 통계분석의 기초 3장 통계분석의 기초3.1 데이터 유형‘변수’는 데이터 중 공통의 측정 방법으로 얻은 같은 성질의 값을 말한다. 예를 들어 ‘키’가 있다.‘키’, ‘몸무게’, ‘성별’ 등 변수가 여러 개인 경우 변수 간의 관계를 밝히고자 데이터를 분석할수도 있다.통계학에서 변수의 개수는 ‘차원’이라 표현되기도 한다. 고차원의 데이터를 해석하는 경우 데이터 분석 난이도가 높아진다.숫자, 범주 등 변수의 유형마다 분석 방법이 달라지기 때문에 데이터를 수집할 때나 분석을 실행할 때 변수가 어떤 유형인지 주의 깊게 고려하는 것이 중요하다.숫자로 나타낼 수 있는 변수를 양적 변수라 한다. 대소 관계가 있으며, 평균값처럼 양을 계산할 수 있다.얻을 수 있는 값이 점점이 있는 변수를 이산형 양적 변수라고 한다.키나 몸무게 같이 간격..
[아티클7] 기술과 혁신 - AI 특이점 시대는 오는가? 원문 링크http://niceq.xehub.net/202403-specialissue/AI-특이점-시대는-오는가핵심 키워드(기사 혹은 책에 등장하는 핵심 키워드 3~5개 + 간단한 설명)sLLM(Small Large Language Mode): 건축 설계, 제품 디자인, 연구개발, 금융 상품 운용 등 매우 복잡하고 전문적인 분야에도 해당 분야에 특화된 언어 모델튜링 테스트: 인공지능 연구는 1950년대 영국의 수학자 앨런 튜링 박사가 제안한 기계와 인간의 의사소통 여부를 판별하는 테스트인 튜링 테스트로부터 시작해 70년간 비약적인 성장을 이루어냈다.블룸버그GPT: 방대한 금융 데이터로 훈련한 대규모 언어 모델로, 재무 데이터를 분석해 위험을 평가하고 회계와 감사 작업을 자동화해 처리하는 등, 금융기관이 ..
[통계 101 x 데이터 분석 | 1장 ] 통계학이란? 1장 통계학이란?1.1 데이터를 분석하다데이터 분석의 주요 목적은 ‘데이터를 요약하는 것’, ‘대상을 설명하는 것’, ‘새로 얻을 데이터를 예측하는 것’이다.‘대상을 설명한다’라고 하기보다, ‘대상이 가진 성질과 관계성을 명확히 밝히고 이를 이해한다’라고 바꿔 말하면 이해하기 쉬울 것.설명에는 수준이 있다.인과관계란 2가지 중 하나(원인)을 변화시키면, 다른 하나(결과)도 바꿀 수 있는 관계를 말한다. 인과관계를 알면 좋은 점은 원인을 바꿈으로써 원하는 결과를 얻을 수 있다는 것이다. 이때 원인을 바꾸는 것을 ‘개입’이라 한다.상관관계란 한쪽이 크면 다른 한쪽도 큰(또는 한쪽이 크면 다른 한쪽은 작은) 관계를 말한다.선형 상관에 한정원리에 관련된 몇가지 가능성을 구별할 수 없으므로 얕은 이해라 할 수 있..
[아티클6] 데이터 분석을 위한 5단계 절차 원문 링크https://brunch.co.kr/@data/10 핵심 키워드(기사 혹은 책에 등장하는 핵심 키워드 3~5개 + 간단한 설명)문제 정의: 문제는 분석의 대상이자 목적이다. 공공 분야에서 문제 정의가 어려운 이유는 많은 사람들이 공감할 만한 가치가 있는 문제를 찾기 어렵고, 데이터의 제약사항을 극복해야 하기 때문이다.데이터 클리닝: ‘데이터 과학의 80%는 데이터 클리닝에 소비되고, 나머지 20%는 데이터 클리닝하는 시간을 불평하는데 쓰인다’ by Kaggle 창립자 Anthony Goldbloom 중복값 제거, 결측값 보정, 데이터 연계/통합, 데이터 구조 변경, 변수 추가 등이 필요하다.데이터 모델링: 분석은 ‘나누고 쪼개는 과정’인데, 데이터 분석 과정에서 분석 대상을 나누고 쪼개면서 그..
[아티클5] 퍼포먼스 마케팅에 꼭 필요한 유료 광고 성과 지표 7가지 원문 링크https://datarian.io/blog/performance-marketing-metrics-7핵심 키워드(기사 혹은 책에 등장하는 핵심 키워드 3~5개 + 간단한 설명)광고 플랫폼 지표: 메타나 구글같은 플랫폼에 유료 광고를 돌렸을 때 해당 광고 플랫폼에서 제공해주는 지표로 CPC, CTR, CPM 등이 있다.CTR(Click Through Rate, 광고 노출 대비 클릿 횟수): 100회 노출 당, 5번 클릭이라면 CTR은 5%. 만약 노출 대비 클릭수가 잘 나오지 않는다면, 광고의 소재나 타겟을 바꿔볼 필요가 있다.CPC(Cost Per Click, 한 번의 클릭 당 지출한 비용): 마케팅 비용을 1만원 사용했고, 40회의 클릭이 발생했다면 1회 클릭 당 250원의 마케팅 비용이 든다..