본문 바로가기

분류 전체보기

(50)
[MySQL] DATEDIFF, TIMESTAMPDIFF, INTERVAL 과제를 하면서 가장 헷갈렸던 부분이 바로 이 날짜 관련 함수이다. 나는 거의 대부분 DATEDIFF 함수를 사용했었는데 이번 과제에선 DATEDIFF를 사용하면 자꾸 이상한 값이 나왔다.  1. DATEDIFF와 TIMESTAMPDIFF의 차이 및 사용법 ① DATEDIFF : 일(day) 단위의 차이를 구하기 위해 사용DATEDIFF(날짜1, 날짜2) 날짜1 - 날짜2의 일수 차를 구한다.  ② TIMESTAMPDIFF: 지정해준 단위 인자를 기준으로 두 날짜의 차이를 구하기 위해 사용TIMESTAMPDIFF(단위, 날짜1, 날짜2) 날짜1 - 날짜2 = 00(단위)  SECOND : 초MINUTE : 분HOUR : 시간DAY : 일WEEK : 주MONTH : 월QUARTER : 분기YEAR : 연도 ..
[컬럼 만들기] 회원가입 각 단계 전환율 구하기 - SQL Challenge 세션 과제2 과제 2. 회원가입 전환율 단계별 분석목표: 유저의 계정 생성부터 회원가입 완료까지의 각 단계별 전환율을 24시간 이내에 완료된 경우로 계산.계정 생성 후 이메일 입력 화면 진입률.이메일 입력 화면 진입 후 개인 정보 입력 화면 진입률.개인 정보 입력 화면 진입 후 회원가입 완료 전환율.계정 생성 후 회원가입 완료 전환율.결과: 각 단계별 전환율을 백분율로 산출.과제 설명유저의 계정 생성 (create_user) 후 이메일 입력 화면 진입 (enter_email)률, 이메일 입력 화면 진입 (enter_email) 후 개인 정보 입력 화면(enter_info) 진입률, 개인 정보 입력 화면(enter_info) 진입 후 회원가입 완료 전환율(complete_signup), 유저의 계정 생성 후 회원가입 ..
[통계학의 기초] 통계적 가설 검정 - 귀무가설 / 대립가설 1. 통계적 가설 검정이란?- 주어진 자료가 특정 가설을 충분히 뒷받침하는지 여부를 결정하는 통계적 추론 방법 1) 귀무(영) 가설 (Null Hyphothesis)- 기존의 통념이라 일반적으로 표현하는 Default 2) 대립 가설 (Alternative Hyphothesis)- 새롭게 입증, 주장하고자 하는 것 → 우리의 목표는 대개 귀무 가설이 틀렸음을 데이터로 입증하는 것  기존 가설: '인스타카트를 이용하는 유저들은 주말에 조금 더 많은 수량의 상품을 구매할 것이다'⇩귀무가설: '인스타카트를 이용하는 유저들의 1회 상품 구매량은 주중과 주말에 차이가 없다'대립가설: '인스타카트를 이용하는 유저들의 1회 상품 구매량은 주중과 주말에 차이가 있다' 여기서 결과는 '귀무 가설을 기각한다' or '귀무..
🌱 프로젝트는 어려워...💦 - 기초 프로젝트 (Spotify 데이터셋) ▶️ 총평- '열심히 했으나 의미가 있었나' 싶은 한 주- '데이터 리터러시'의 중요성 🤓 배운 것- 문제 정의와 가설 설계의 중요성- 시각화 차트 꾸미는 법..- EDA로 문제 상황 파악하기 ✅ GOOD- 밥 먹으면서도 SQL 선택 세션 수강- Pandas 문법 익숙해지기 ❎ BAD- 만족스럽지 않은 프로젝트 결과물: 프로젝트 주제와 세부 목표 구체화 부족했음- 더 만족스럽지 못한 나의 실력 (기술적인 측면뿐 아닌 전체적인 분석가로서의 자질)  ❗️부족한 점은 학습 주차를 활용하자1️⃣ 데이터 리터러시- '데이터 문해력' 읽기- '데이터 분석가의 숫자유감' 읽기 2️⃣ SQL 총 복습⭐️⭐️⭐️- SQL 선택 세션 Basic/Challenge 복습하기- SQL 코드 카타 최소 5문제 복습하기 3️⃣ ..
[기초 프로젝트] 프로젝트 회고 ✅ 프로젝트 측면✔️프로젝트 기획 단계 ① 데이터셋 선택 및 전처리GOOD- 정제된 데이터라 EDA에 비교적 많은 시간을 투자할 수 있었음. BAD- 전처리가 거의 필요없는 아주 작은 데이터셋을 선택해 전처리 과정을 겪지 못한 점 아쉬움  ③ EDAGOOD- 컬럼 별 특성을 파악한 후에 범위를 나누어 EDA 진행  BAD- EDA 결과를 조금 더 정리한 후 가설 설계로 들어갔어야 할듯③ 가설 / 분석 모델 GOOD- [의문 → 가설 → 분석 결과 → 결론 → 액션 플랜 → 기대 효과] 하나의 플로우에 맞춰 분석 진행  BAD- 프로젝트 주제를 관통하는 일관성 있고 통일된 가설들은 아니었음. - 가설 설계 시 더 명확하고 구체적인 단어를 사용해아 함.  - 가설 별로 파트를 나눠 깊게 파고 들었으면 조금 ..
[미니 프로젝트] 프로젝트 회고 (2024.04.19 네이버 블로그 내용 옮긴 것)✅ 프로젝트 회고​✔️프로젝트 기획 단계가설 / 분석 모델 가설을 세워 검증하는 방법을 사용할지, 몇몇 기준을 내에서 분석 모델을 만들지 고민이 있었다. 주제 가이드라인에 주어진 대로 탐색적 데이터 분석(EDA)를 활용했는데, 결론적으로는 탐색적 데이터 분석을 진행한 후에 가설을 세워 검증하는 단계까지 했더라면 더 좋았을 것 같다.​분석 기준 및 단위실력 한계상 자치구/법정동 기준으로 데이터를 분석했다. 서울시 전세 데이터 및 공원/지하철역/유흥업소 데이터를 분석해 스코어링을 한 후, 우리가 설정한 페르소나가 전세 매물을 찾을 수 있는 가장 합리적인 자치구/법정동을 산출하는 걸 프로젝트 목표로 삼았다. 매물 단위로 확인할 수 있었으면 가장 좋았겠지만, 법..
[SQL] 이동평균을 통해 매출 추이 살펴보기 1. 이동평균이란?N일 동안의 평균 변화의 추이를 보기 위한 값💡 ROWS BETWEEN lower_bound AND upper_bound 예를 들어, ‘ROWS BETWEEN 6 PRECEDING AND CURRENT ROW’는현재 행 포함 이전 6개의 행, 즉 7개의 행을 의미한다.따라서, 7일 동안의 매출액의 평균 추이를 보기 위해서는날짜 별로 GROUP BY를 해준 후, 구매량의 합을 평균내어이를 날짜 순으로 정렬하여 7일씩 끊어서 보면 된다.  SELECT dt ,SUM(purchase_amount) ,AVG(SUM(purchase_amount)) OVER(ORDER BY dt ROWS BETWEEN 6 PRECEDING AND CURRENT..
[기초 프로젝트 | Day 4] 데이터 리터러시의 중요성 이번 프로젝트를 하면서 가장 크게 와닿았던 건 '데이터 리터러시'의 중요성이었다.SQL이나 Python을 능수능란하게 다루는 것도 중요하지만, 어떤 목표를 가지고 무엇을 분석해 어떤 결론을 도출할 것인지,이 모든 과정에서 정확한 질문을 던지고 답을 찾는 것이 결국 데이터 분석의 전부라는 생각이 들었다.프로젝트가 끝나면 꼭 이랑 을 완독하고 따로 정리해야겠다.  오늘의 TIL은 데이터 리터러시 강의와 책을 정리해놨던 내용 중,기초 프로젝트를 하며 (정말정말정말) 중요하단 생각이 든 내용을 옮기는 것으로 대신한다.   1. 데이터 리터러시란?데이터를 읽고 이해하며 비판적으로 분석하여 그 결과를 의사소통에 활용할 수 있는 능력→ 데이터 리터러시는 올바른 질문을 던질 수 있도록 도와줌 2. 데이터 분석 접근법..
[기초 프로젝트 | Day 3] 시각화 1. 시각화프로젝트하면서 피봇 테이블과 시각화 차트 구현 부분을 많이 맡았다. Pandas와 Matplotlib, Seaborn을 활용해 피봇 테이블로 컬럼 간의 관계를 확인하고, 이를 시각화하여 표현하고 있다.  1) 컬럼의 순서 바꾸는 법# ['pod_lis_frequency']내 unique값 원하는 순서대로 정렬한 리스트 생성my_order =['Daily', 'Several times a week', 'Once a week', 'Rarely', 'Never']# pd.Categorical 함수를 활용해 spotify['pod_lis_frequency']를 정렬된 범주화 데이터로 변환spotify['pod_lis_frequency']=pd.Categorical(spotify['pod_lis_fre..
[기초 프로젝트 | Day 2] 가설의 중요성 순조롭게 진행되던 프로젝트가 덜컹거렸다. 한 팀원분이 가설에 대한 문제점+제안을 하시면서 우리 가설의 부족함이 드러났다.  안그래도 EDA 쪽을 정리하고 있던 나도 슬금슬금 가설에 의문이 들던 참이었다.EDA를 통해 어떤 가설이 도출됐는지를 보여줘야 하는데 가설이 명확하지 않으니 어떤 EDA 결과를 보여줘야 할지 갈피가 잡히지 않고 있었기 때문이다.  어쩌면 나조차도 납득되지 않은 가설을 증명하기 위해 의미없는 분석을 진행하고 있었다.  다음 프로세스로 가설을 다시 점검했다. EDA 결과 → 의문 → 가설 → 분석/검증 → 결론 → 액션 플랜 제시 멋드러진 분석 방법을 사용해 화려한 시각자료를 내놓는게 중요한 게 아닌데(지금은 할수도 없지만..ㅎㅎ),가장 기본이자 지금의 내가 그나마 잘할 수 있는 부분을..