본문 바로가기

⛴️ Data Analyst

(19)
[Study] Google Data Analytics Certificate Module 1 데이터 분석가들이 어떻게 데이터에서 결정까지 도달하게 되는지는 분석가마다 천차만별이다.그러나 공통적으로 공유하는 기본 구조는 존재한다. 구글의 학습 코스인 Coursera에 따르면, 다음 6가지 단계로 진행된다. 1. Ask: business challenge, objective, or question2. Prepare: data generation, collection, storage, and data management3. Process: data cleaning and data integrity4. Analyze: data exploration, visualization, and analysis5. Share: communicating and interpreting results 6. Act: pu..
[커피챗] LG전자 데이터 사이언티스트 멘토님과의 만남 내일배움캠프 수료한 지 한 달이 지났다. 이력서를 쓰고, 그동안 못만났던 친구들을 만나고, 짧게 일본에 다녀오고, 가족들과 추석을 보내다 보니 한 달이 휘리릭 지나가버렸다. 이번주부터 다시 내배캠의 커리어톤에 참여하며 이력서 수정과 포트폴리오 작성, 면접 준비를 하는 중이다.포트폴리오를 정리하려고 보니, 자꾸 부족한 점만 보였다.'열심히 기록할걸', '끝나고 한 달을 더 알차게 보낼걸' 하는 아쉬움에 어영부영 또 이틀이 빠르게 지나갔다.  그 와중에 커피챗 신청 미션이 다가왔다. 더 준비가 된 후에 조언을 구하는 게 맞지 않을까, 라는 생각도 잠시, 더 이상 미룰 수 없다, 매도 먼저 맞자는 생각으로 오늘 저녁으로 요청드렸다.  결과적으로 지금 나에게 꼭 필요한 이야기들을 들을 수 있었다. 멘토님께선 그..
[최종 프로젝트] 1주차 + 2주차 2일차까지의 과정 최종 프로젝트가 제법 순항중이다.크고 작은 어려움들이 있었지만 팀원들과 소통하며('세 명 중에 한 명은 되겠지!'란 믿음과 떠넘김 사이 그 어딘가 ㅋㅋㅋㅋㅋ 하지만 맡은 사람이 결국 해내는 우리팀 너무 좋다!) 블로그 기록은 밀렸지만 대신 노션 기록을 최대한 꼼꼼히 하려고 노력중이다. 우리 프로젝트는 그동안 더욱 구체화 되어 크게 세가지 테스크로 나뉘었다. 한국 식품 데이터 식품명과 서양 GI 데이터 식품 설명 유사도 비교 후 한국 식품에 GI 값 매핑당뇨 예측 데이터를 학습시켜 한국 사용자의 당뇨병 예측사용자별 식품 등급화해(ex. A, B, C, D, E)추천 (+리뷰 데이터 감정분석 후 등급별 베스트 5, 워스트 5 식품 추천) 나는 1번을 맡아서 진행중이다. 1. 데이터 수집 및 전처리1) 식품 ..
[최종 프로젝트] 디지털 헬스케어 스터디 및 주제 아이디어 1 https://www.epnc.co.kr/news/articleView.html?idxno=303940 2030도 안심 못하는 ‘당뇨’, 디지털 헬스케어로 잡는다[테크월드뉴스=김승훈 기자] 과거와 달리 요즘은 중장년층보다 20·30대에서 당뇨 환자가 증가하는 추세다.건강건강보험심사평가원에 따르면 2030세대 당뇨병 환자(진료연월 기준)는 2018년 59만7472www.epnc.co.kr ▶️ 기사 내용 요약당뇨병 환자 수 2030년까지 전세계적으로 5억 5200만명 예상 (2022년 대비 33% 증가)관련 시장 규모도 2021년 6조원에서 2026년 40조원으로 급성장할 것으로 전망특히 2030세대 당뇨 환자가 급증하는 추세로 배달 음식 섭취량은 많아졌으나 운동량은 줄어든 것이 가장 큰 원인인것으로 분석..
[API 통신] API 데이터 활용하기 (세션 필기) API 통신의 개념 (Application Programming Interface)프로그램과 프로그램 사이에서 데이터를 전달해주는 통신의 방식, 매커니즘(크롤링의 경우, HTML 구조를 이해하고 있어야 한다는 점과 법적이슈가 있을 수 있어 조심스러움)API 통신은 payload KEY값을 기반으로 간단한 호출구문을 통해 데이터를 송신받을 수 있다는 점에서 보다 간편한 방식역할 및 특징권한 관리: 많은 데이터가 적재되는 DB에는 보안상의 이슈가 있을 수 있어 접근이 허용된 로컬에게만 권한을 부여하는 ‘중간관리자’ 역할 수행키값을 통해 간편한 통신을 지원. 키값에는 할당량(호출량)이 부여됨.접속 표준화: DB에 접근하는 요청을 표준화한다. 즉, 규칙을 지정해주는 것. 3.  종류Public APIPrivat..
[심화 프로젝트] 프로젝트 회고 ✅ 프로젝트 측면✔️프로젝트 기획 단계 ① 데이터셋 선택 및 전처리GOOD머신러닝을 처음 배우는 만큼, 비지도 학습보단 지도 학습 주제를 선택하는 게 나을 거라고 생각했고, 결과적으로 '트위터 사용자 성별 예측 모델'이라는 뚜렷한 주제를 선택해 비교적 명확한 방향성을 가지고 프로젝트를 시작할 수 있게 됐다.  BAD자연어 파트가 중요한 데이터셋이었는데 개인적인 역량 부족으로 자연어 컬럼을 다루지 못했음.  ③ EDAGOOD기본적으로 서로 다른 특징을 갖고 있는 컬럼들을 팀 측면에서 꼼꼼히 살펴봤다고 생각함.  BAD튜터님 피드백대로 컬럼별 특성을 조금 연결 지어 살펴봤으면 어땠을까 싶음.상관계수 살펴본 것 이외에 EDA를 진행하지 않아서, 간단하게 EDA 해봤으면 다른 특징들을 발견할 수 있지 않았을까 ..
🌱 입력 🤖 출력 - 머신러닝 ▶️ 총평- 머신러닝에 온전히 몰입- SQL 코드 카타도 꾸준히 함- 무엇보다 재밌게 공부했던 주라는 점에서 의미가 크다!  🤓 배운 것- 머신러닝에서 회귀, 분류, 군집의 개념과 알고리즘 모델 사용법, 검정법- 데이터 전처리 - 결측치, 이상치 처리 및 표준화 ✅ GOOD- 머신러닝 강의, 세션 수강 후 직접 실습하고 기록한 것- SQL 코드카타 꾸준히 한 것 - 과제 여러 모델로 실습해본 것 ❎ BAD- TIL 소홀했던 것- 개인 프로젝트 시작하기로 마음먹었는데 실천 못함333 ⇒ 하지만 바빴음- 딥러닝은 시간 관계상 포기 📌주말- 전처리: 스케일링, 표준화, 결측치, 이상치 처리 정리 및 실습- 분석 모델: ipynb 파일 모델 별로 정리하기 (하이퍼파라미터 공식 문서 참고하기)- 책: 데이터 ..
🌱 통계학과에 가야했어 - 통계학의 기초 ▶️ 총평- 통계학의 기초 강의에 휩쓸려 순식간에 흘러간 한 주...- 풀어진 마음으로 여유롭게 보냈던 한 주 🤓 배운 것- '통계학의 필요성'을 배웠지만 통계학은 배우지 못했다...- SQL 함수들 + 리텐션률 구하는 방법 + 퍼널 설계  ✅ GOOD- 최선을 다해 이해하려고 노력한 것- SQL 베이직, 챌린지 강의 들으면서 기존에 쓰지 못했던 함수(WINDOW 함수, DATE 관련 함수, WITH절, 서브쿼리 등) 익숙해진 것 ❎ BAD- 프로젝트 후 느슨해진 마음에 몰입하지 못함- 개인 프로젝트 시작하기로 마음먹었는데 실천 못함 ❗️부족한 점은 주말을 활용하자(지난주 목표 그대로 가져간다→문제있다😡)1️⃣ 데이터 리터러시- '데이터 문해력' 읽기- '데이터 분석가의 숫자유감' 읽기 2️⃣ SQL..
[통계학의 기초] 통계적 가설 검정 - 귀무가설 / 대립가설 1. 통계적 가설 검정이란?- 주어진 자료가 특정 가설을 충분히 뒷받침하는지 여부를 결정하는 통계적 추론 방법 1) 귀무(영) 가설 (Null Hyphothesis)- 기존의 통념이라 일반적으로 표현하는 Default 2) 대립 가설 (Alternative Hyphothesis)- 새롭게 입증, 주장하고자 하는 것 → 우리의 목표는 대개 귀무 가설이 틀렸음을 데이터로 입증하는 것  기존 가설: '인스타카트를 이용하는 유저들은 주말에 조금 더 많은 수량의 상품을 구매할 것이다'⇩귀무가설: '인스타카트를 이용하는 유저들의 1회 상품 구매량은 주중과 주말에 차이가 없다'대립가설: '인스타카트를 이용하는 유저들의 1회 상품 구매량은 주중과 주말에 차이가 있다' 여기서 결과는 '귀무 가설을 기각한다' or '귀무..
🌱 프로젝트는 어려워...💦 - 기초 프로젝트 (Spotify 데이터셋) ▶️ 총평- '열심히 했으나 의미가 있었나' 싶은 한 주- '데이터 리터러시'의 중요성 🤓 배운 것- 문제 정의와 가설 설계의 중요성- 시각화 차트 꾸미는 법..- EDA로 문제 상황 파악하기 ✅ GOOD- 밥 먹으면서도 SQL 선택 세션 수강- Pandas 문법 익숙해지기 ❎ BAD- 만족스럽지 않은 프로젝트 결과물: 프로젝트 주제와 세부 목표 구체화 부족했음- 더 만족스럽지 못한 나의 실력 (기술적인 측면뿐 아닌 전체적인 분석가로서의 자질)  ❗️부족한 점은 학습 주차를 활용하자1️⃣ 데이터 리터러시- '데이터 문해력' 읽기- '데이터 분석가의 숫자유감' 읽기 2️⃣ SQL 총 복습⭐️⭐️⭐️- SQL 선택 세션 Basic/Challenge 복습하기- SQL 코드 카타 최소 5문제 복습하기 3️⃣ ..