본문 바로가기
프로그래머스/데이터분석 데브코스

데이터분석 데브코스 1일차

by 포잉띠 2024. 2. 20.

데이터 기반 지표 (KPI, Key Performance Indicator 등등) 정의는 데이터 문해력을 기르는 시작점이다.

 

Data Warehouse 

- 수집한 데이터들을 규격화 하여 적재하는곳 / 데이터 수집 > 적재 과정을 주로 ETL 이라고 칭함.

- 각종 대쉬보드 툴들의 백엔드

- 3대장으로는 tableau, power B/I, Looker 가 있음

 

클라우드 서비스는 불필요하게 자원이 남지 않도록 할 것

 

이번 코스에선 Aws RedShift 주로 사용할예정

 

Data Team Cycle

가설 정의 > 데이터 수집 > 모델 빌딩과 테스트 > 모델 배포 > A/B 테스트 > 테스트 결과 분석 > 데이터 수집 > 모델 빌딩과 테스트 > ....

반복하며 데이터 스케일을 늘리고 품질을 높이고 모델을 이에 맞게 더욱 깎아나감.

 

A/B test = 신약 임상실험의 온라인 버전

 

ETL에 주로 사용하는 tool

- AriFlow

 

데이터 문해력 

- 데이터 기반 의사결정, 제품 결정, 생산성 증대 가 시작점

 

머신러닝, 데이터분석은 GIGO기 때문에 항상 데이터 클린업(EDA)와 더불어 적재 레포같은걸 계속해서 관리하여

데이터 품질을 향상시키고 유지보수 해야함.

 

머신러닝을 사용할 때 

대가리 깨져도 DL = X

간단한 알고리즘, 모델로 해결 가능한 문제는 최대한 간단하게 해결하는게 시간, 비용, 유지보수에서 이득임

 

모델 예측, 정확도가 떨어질 때 해야할 일

1. 데이터 깎기

2. 모델 깎기

3. 데이터 깎기

4. 모델 깎기

...

반복