본문 바로가기

⛴️ Data Analyst

[미니 프로젝트] 프로젝트 회고

(2024.04.19 네이버 블로그 내용 옮긴 것)


✅ 프로젝트 회고

✔️프로젝트 기획 단계

  • 가설 / 분석 모델

가설을 세워 검증하는 방법을 사용할지, 몇몇 기준을 내에서 분석 모델을 만들지 고민이 있었다.

주제 가이드라인에 주어진 대로 탐색적 데이터 분석(EDA)를 활용했는데,

결론적으로는 탐색적 데이터 분석을 진행한 후에 가설을 세워 검증하는 단계까지 했더라면 더 좋았을 것 같다.

  • 분석 기준 및 단위

실력 한계상 자치구/법정동 기준으로 데이터를 분석했다.

서울시 전세 데이터 및 공원/지하철역/유흥업소 데이터를 분석해 스코어링을 한 후,

우리가 설정한 페르소나가 전세 매물을 찾을 수 있는 가장 합리적인 자치구/법정동을 산출하는 걸 프로젝트 목표로 삼았다.

매물 단위로 확인할 수 있었으면 가장 좋았겠지만, 법정동까지 쿼리를 산출하는 것도 난 성공하지 못했다...

같은 주제를 선택한 다른 조들은 조건을 설정하고 주어진 데이터 내에서 알맞은 자치구를 선정하는데 그쳤다면,

우리 조는 서울시 전체에서 조건에 따라 합리적인 자치구/법정동을 뽑아낼 수 있는 모델을 만들었다는 점이 의미있는 것 같다.

✔️ 데이터 수집 단계

  • 선택적 데이터 수집

데이터 전처리에 대한 부담 때문에 더 정확한 값을 가지고 있는 데이터보다 활용하기 쉬운 데이터를 선택했다. (공원 음수대 정보 데이터)

튜터님께서 데이터를 열었을 때 엉망인 건 데이터 분석가라면 누구나 당연히 겪어야 하는 문제라고 하셨는데

이 역시 꾸준히 여러 데이터를 살펴보며 익숙해져야 할 문제인 것 같다.

✔️ 데이터 분석 단계

  1. 모호한 스코어링 기준
  • 가격/신구축 여부/ 유흥업소 밀집여부/역세권 여부 등 조건의 우선순위를 수치화해 차등해서 점수를 부여하는 것이 어려움.

→ 스코어링 기준에 더욱 정확한 근거 필요

실제로 보조값이었던 유흥업소, 공원, 지하철역 유무가 결과값에 키 역할을 했으므로 이 점수들에 보완이 필요하다.

어떤 방식으로 스코어링을 하는진 꼭 배우고 싶다.

✔️ 어려웠던 점 및 발전방향

  1. 정제되지 않은 데이터 전처리
  • 데이터를 DBeaver로 불러오는 과정 오류 발생 많음

→ MySQL 프로그램 전반에 대한 이해 필요

2. SQL 실력 부족

  • 서로 다른 테이블을 조인해 합산 점수 조회하는 쿼리 작성 어려움

→ SQL 공부를 통해 실력 향상하기

  • 쿼리 작성 방식이 달라 팀원들끼리 교차 검증 어려움

→ 쿼리 작성 전 작성 방식 팀원들과 공유하기