본문 바로가기

⛴️ Data Analyst

[심화 프로젝트] 프로젝트 회고

✅ 프로젝트 측면

✔️프로젝트 기획 단계

 

① 데이터셋 선택 및 전처리

GOOD

머신러닝을 처음 배우는 만큼, 비지도 학습보단 지도 학습 주제를 선택하는 게 나을 거라고 생각했고,

결과적으로 '트위터 사용자 성별 예측 모델'이라는 뚜렷한 주제를 선택해

비교적 명확한 방향성을 가지고 프로젝트를 시작할 수 있게 됐다. 

 

BAD

자연어 파트가 중요한 데이터셋이었는데 개인적인 역량 부족으로 자연어 컬럼을 다루지 못했음.

 

 

 EDA

GOOD

기본적으로 서로 다른 특징을 갖고 있는 컬럼들을 팀 측면에서 꼼꼼히 살펴봤다고 생각함. 

 

BAD

튜터님 피드백대로 컬럼별 특성을 조금 연결 지어 살펴봤으면 어땠을까 싶음.

상관계수 살펴본 것 이외에 EDA를 진행하지 않아서, 간단하게 EDA 해봤으면 다른 특징들을 발견할 수 있지 않았을까 하는 아쉬움이 남음. 

 


 
가설 / 분석 모델 

GOOD

[데이터 살펴보기 -> 상관계수 설정 -> 변수 설정 -> 모델링 -> 평가 -> 결과 확인]의 흐름을 가지고 비교적 체계적으로 접근했다고 생각됨. 

(튜터님 칭찬도 받은 부분!)

 

BAD

머신러닝 모델 설정 이유와 결과 비교 설명이 빈약했던 것 같음. 

 

 

​④ 분석 기준 및 단위

BAD

멀티 클래스 분류를 할 건지, 이진 분류를 할 건지, 팀 차원에서 너무 늦게 결론을 내리지 않았나 싶음. 

스스로도 이 부분이 명확하지 않아 고민을 오래 했는데, 망설이지 말고 먼저 물어봤으면 좋았을 듯.

결국 이진 분류에서 멀티 클래스로 바꾸고 모델링 싹 다 다시 돌려야 했음. 

 

 

⑤ 결론 

GOOD

비자연어 기반 머신러닝 앙상블 모델, 자연어 기반 나이브 베이즈, 자연어 기반 디스틸벌트 모델의 장단점을 비교하면서 깔끔하게 끝냄.

 

BAD

시간적 문제가 있었지만, 튜터님 피드백대로 자연어 파트와 비자연어 파트를 합쳐 모델링을 해봤더라면 더 좋았을 듯. 

 

✅ 개인적인 측면

[잘한 점]

  1. 프로젝트의 흐름을 이해하고 각 단계에서의 목표를 달성함. 
  2. 최대한 다양한 모델을 활용해 가장 높은 성능을 가진 모델을 찾으려 노력함. 
  3. 전처리 과정을 지난 프로젝트보다 훨씬 능숙하게 해냄.
  4. 팀장으로서 팀 차원에서 함께 프로젝트를 진행하려고 노력함.

 

[문제점]

 

1. 챗GPT 의존도 높았음

  • error 생기면 챗GPT 사용
  • 시각화 도움 많이 받음
  • 머신러닝 코드도 챗GPT 의존
  • 개인 과외 선생님같은 존재였음

 

[개선사항]

  1. 기본기 다지기 (파이썬, 판다스, SQL 등등)

 

[발전방향]

  1. 머신러닝 모델 복습하기 (개인 프로젝트 하나 진행해 보기)
  2. 자연어 처리 공부하기 (머신러닝 수준도 OK)