본문 바로가기
프로그래머스/데이터분석 데브코스 프로젝트

프로그래머스 데이터분석 데브코스 1차 프로젝트 셀프리뷰

by 포잉띠 2024. 3. 25.

프로젝트 목표는 데이터셋을 구해서 SQL과 Excel, Tableau 같이 지금까지 과정에서 배운걸 사용하여 분석을 진행하는 것이다.

 

2024년 3월 11일부터 2024년 3월 20일까지 약 10일간 진행하였다.

 

처음은 아래 링크의 데이터셋으로 분석을 진행했다.

https://www.kaggle.com/datasets/ayushparwal2026/online-ecommerce

 

Online-eCommerce

buying and selling of goods or services over the world.

www.kaggle.com

단순히 보았을때 결측치가 적었고 데이터셋 이해하기가 쉬울것 같아서 조원들에게 이 데이터셋을 사용해서 진행하자고 했다.

하지만 유의미한 결과를 찾기 힘들었고, 데이터가 잘못 적재된 레코드들도 많았다.

당연히 어느정도 정제가 되어있으리라 생각하고 추진했지만 멘토님의 데이터 품질에 대한 피드백을 통해 한번 엎고 새로운 데이터셋으로 진행하기로 했다.

 

여러가지 데이터셋들을 찾아보았지만 품질검증, SQL 연습이 쉽지 않은 데이터셋들이었다.

조금 헤메다가 Google BigQuery의 public dataset중 The look ecommerce 데이터셋을 선정하여 분석을 진행했다.

 

테이블이 이렇게 나뉘어진 데이터셋은 처음이라 신나게 join 사용해보며 년월 기준으로 여러가지를 조합, 정렬했다.

  

최종적으로 이렇게 쿼리를 짜서 csv 파일로 추출한 후 엑셀을 통해 여러가지 차트를 만들어 보았다.

 

https://arin-nya.tistory.com/44

 

쿼리, 시각화 자료는 위의 게시글에 따로 모두 업로드 하였다.

 

분석 결과는

  1. 잔존률이 높지 않지만, 한번 남으면 계속해서 이용한다.
  2. 기록이 시작된 19년도를 제외하고 1월~연초에 이용이 감소하는 경향이 보인다.
  3. 취소, 반품률이 낮아지고는 있지만 꽤 높은 수준을 유지하고 있는데, 이는 주력 판매 상품이 의류 그중에서도 언더웨어와 청바지여서 사이즈, 재질에 의한 취소, 반품이 많다고 생각된다.
  4. 이용자 성별 여성/남성 비율이 1아래인 월 수가 더 많아 코어층은 남성으로 보인다.
  5. 월별 여성 이용자 수가 2번과 관련이 있을까 싶어 피어슨 상관계수를 구해보았다. 0.35로 높지 않은 수치가 나왔다.

추출해낸 인사이트는 

  • 잔존률을 높이면 전체적인 이용자 수가 늘어날것이다.
  • 취소, 반품률을 줄이기 위해 상품의 재질, 사이즈에 대한 더욱 세부적인 정보를 제공한다면 취소, 반품률이 줄어 고객들의 만족도를 높일 수 있을 것이다.

이다.

멘토님이 이러한 피드백을 주셨다.

 

이를 참고해 부족했던 부분을 체크해 보려고 한다.

  1. 근거가 빈약하다는것과 시각화가 효율적이지 못했다. 
  2. 항상 상관계수를 구할때면 피어슨 상관계수를 사용했었기에 이번에도 사용했는데 선형적인 모습인지 시각화를 해보고 사용하거나 다른 방법을 사용했어야 했다.
  3. 다시한번 쿼리를 보았는데, 하나로 묶으려고만 하기보다는 또 다른 select를 통해 월별 Brand나 카테고리, 이용자 성비와 연관성... 등등 더 많은 정보들을 일단 추출해보는게 어땠을까 싶다. 그리고 쿼리가 정확히 내가 원하는 데이터를 조회했는지도 검증이 되지 않은 상태이다.
  4. 3번과 같은 이유로 근거가 부족하고 시각화 또한 알맞게 진행되지 않은 것 같다.

얻어간 부분은 조원들의 다양한 분석 뿐만 아니라 다른팀들의 제출물을 보며 이런 데이터셋도 있구나, 이런 분석 방법도 있구나, 시각화는 이렇게 하면 가시성이 높구나, EDA과정이 역시나 너무 중요하구나를 배웠다.

 

아쉬운 부분은 분석 기술의 지식, 통계 지식의 절대적인 총량이 매우 적다는것이다.

또한 SQL자체도 능숙하지 않은게 아쉬웠다.

그렇다고 사용에 비교적 익숙한 pandas를 사용해서 진행했어도 정제가 조금은 더 잘되었을진 모르지만 결과는 비슷했을 것 같다.

늘 먹던 경제 도메인, pandas 이런걸 찾아가는게 아닌 오히려 어색한 불편한 길, 새로운 맛을 더욱 추구해야겠다.

 

생각보다 내 결과물의 퀄리티가 너무 낮아서 살짝 막막하지만 그만큼 배울게 많이 남아있다고 생각한다.

 

갈 길이 멀다.