본문 바로가기

⛴️ Data Analyst

[최종 프로젝트] 1주차 + 2주차 2일차까지의 과정

최종 프로젝트가 제법 순항중이다.

크고 작은 어려움들이 있었지만 팀원들과 소통하며

('세 명 중에 한 명은 되겠지!'란 믿음과 떠넘김 사이 그 어딘가 ㅋㅋㅋㅋㅋ 하지만 맡은 사람이 결국 해내는 우리팀 너무 좋다!)

 

블로그 기록은 밀렸지만 대신 노션 기록을 최대한 꼼꼼히 하려고 노력중이다.

 

우리 프로젝트는 그동안 더욱 구체화 되어 크게 세가지 테스크로 나뉘었다. 


  1. 한국 식품 데이터 식품명과 서양 GI 데이터 식품 설명 유사도 비교 후 한국 식품에 GI 값 매핑
  2. 당뇨 예측 데이터를 학습시켜 한국 사용자의 당뇨병 예측
  3. 사용자별 식품 등급화해(ex. A, B, C, D, E)추천 (+리뷰 데이터 감정분석 후 등급별 베스트 5, 워스트 5 식품 추천)

 

나는 1번을 맡아서 진행중이다.

 

1. 데이터 수집 및 전처리

1) 식품 데이터

우선 GI값을 매핑할 한국 식품 데이터를 공공데이터 포털(5만여개)과 식품영양성분 데이터베이스(7만여개)에서 수집했다.

팀원분께서 두 데이터를 통합해 중복 식품은 드랍하고 총 9만 9천여개의 데이터로 전처리를 해주셨다.

이후에 브랜드명이나 영어로 된 부분, 이외 불용어 전처리까지 모두 마친 상황이다.

 

2) GI 데이터

GI 데이터 수집에 크고 작은 어려움이 있었다.

GI 데이터는 우리나라 식품에는 거의 없다시피 해서 (일주일동안 세명이서 200개짜리 하나 찾은게 전부...)

시드니 대학교의 GI 데이터 베이스 데이터가 절실한 상황이었다.

(선행 연구가 없다는 점이 이 프로젝트를 더 의미있게 하나, 과정이 너무 힘들었..)

 

튜터님의 도움으로 github에서 해외 선행연구 사례를 찾았고,

연구팀이 수집해서 쓴 시드니 대학교 GI 데이터 베이스 데이터를 사용해도 좋다는 메일 답변을 받았다.

이후, 시드니 대학교 측에서도 우리가 데이터 베이스 정보를 가져다 쓰는 건 괜찮다는 답변을 받았다.

 

이외에도 팀원분께서 약 6천여개의 GI 데이터 셋을 찾아주셔서 GI 데이터도 약 1만여개의 데이터 셋을 확보했다.

 

나의 과제는 약 10만개의 한국 가공식품 데이터의 식품명과 1만여개의 GI 데이터 식품 설명 유사도를 비교해

한국 가공식품 데이터에 유사도가 높은 GI값을 매핑하는 것이다.

 

2. 데이터 매핑

1) 임베딩 

임베딩 모델을 찾기가 생각보다 까다로웠다.

딥러닝은 이번 프로젝트에서 처음이다 보니 챗지피티 선생님과 블로그들을 참고해 하나하나 공부하면서 해야 했다.

 

 

2) 유사도 비교

 

 

작성중