본문 바로가기
프로그래머스/데이터분석 데브코스

데이터 분석 데브코스 2일차

by 포잉띠 2024. 2. 20.

ETL

AirFlow를 스케쥴러로 사용

데이터의 양, ETL이 늘어날수록 Pandas로 처리가 불가능한 상황이 오는데,

이 때 사용하는게 Spark

 

ELT

ETL을 통해 Data warehouse에 적재된 data를 재조합하여 새로운 정보, 가치 창출

시각화라던지 머신러닝을 돌려본다던지 등등

 

데이터 문해력

- 데이터 기반 의사결정, 제품개선 이 되는지. 생산성 증대로 이끌 수 있는가.

 

Data CleanUpEDA(pandas, spark같은 파이썬 라이브러리로 품질관리), DBT(툴 이름) 사용

 

 

======================================

 

KPI(Key Perfomance Indicator)

조직 내에서 달성하고자 하는 목표

정량적인 수치 선호

정량적인 수치로 되어있기에 시간에 따른 성과 분석 가능

ex) 매출, 이용자 수, 잔존율 등등

 

분석가의 주 업무

중요 지표를 데이터를 기반으로 정의하고 시각화.

중요 지표로 대쉬보드 만들기

회사 내 다른 팀들의 데이터 관련 질문에 대답

임원, 리더들이 데이터 기반 결정을 내릴 수 있도록 서포트

각종 팀, 동료에게서 데이터 관련 질문이 쏟아지기에 반복적인 질문에 대응할 수 있는 대시보드의 퀄리티, 자동화가 중요하다.

 

분석가의 주요 요구 기술스택

1. SQL

2. Python

3. ELT, DBT

4. 비즈니스 도메인에 관한 지식

 

중?요?지?표?

ex) 고객 이탈율, 잔존율, 마케팅 기여도, 순익/매출 ... 도메인마다 다름

 

고객 이탈율 VIP, 중소과금러의 이탈 여부, 이유 중요. 이 부분의 중요성은 온라인게임 중소과금러 이탈자로서 완벽히 이해함.

 

클레임과 이탈율의 관계서비스에 애정과 관심이 없으면 클레임조차 걸지 않는다.(진짜임)

 

분석, 모델 빌딩 과정에서 가설에 대한 확증편향에 빠지지 말 것. 

사실 어떤 분야든 확증편향에 빠지지 않는것이 중요하다.

당장 지금 내가 확증편향에 빠져 E클래스 상위트림 풀옵션 한대를 반파시켰기 때문이다.

 

데이터 문해력 향상의 시작에 있는 중요지표

이전 경험에서 느꼈다싶이 Lagging Indicator보단 Leading Indicator를 만들고 퀄리티를 높이고 

Leading Indicator가 Lagging 되는 순간 또 다른 Leading indi를 만들고 해야 최소한 반은 간다.

물론 Lagging indi를 무시해서는 안되지만 Leading indi를 찾는것은 계속해야만 한다.

 

좋은 지표의 특성

아웃풋 지표를 움직이는 지표, 아웃풋에 끼치는 영향을 통제 가능한 지표 

== Leading indi

의 결과

= Lagging indi

 

개스닥 트레이더일때 소홀히 한

매 순간 Leading indicator 깎기는 너무나도 중요하다.

 

좋은 대시보드, 잘만든 대시보드는 무엇인가.

이게 뭐냐고 다시한번 물어보러 찾아오지 않는 사람 비율이 6~70%가 넘으면 대 성 공이다.

이는 곧 쓰는사람이 쉬워야 한다는 말과 같다.

쓰는사람이 쉬워야 다시한번 물어보러 찾아오지 않고 생산성이 증가하며 

수집하는 데이터의 품질이 올라가고, 데이터 엔지니어 및 분석가, 싸이언티스트의 생산성 또한 늘어나며

결국 비즈니스 도메인의 데이터 품질 향상, 조직의 데이터 문해력 증가로 이어진다고 생각한다.