데이터 기반 지표 (KPI, Key Performance Indicator 등등) 정의는 데이터 문해력을 기르는 시작점이다.
Data Warehouse
- 수집한 데이터들을 규격화 하여 적재하는곳 / 데이터 수집 > 적재 과정을 주로 ETL 이라고 칭함.
- 각종 대쉬보드 툴들의 백엔드
- 3대장으로는 tableau, power B/I, Looker 가 있음
클라우드 서비스는 불필요하게 자원이 남지 않도록 할 것
이번 코스에선 Aws RedShift 주로 사용할예정
Data Team Cycle
가설 정의 > 데이터 수집 > 모델 빌딩과 테스트 > 모델 배포 > A/B 테스트 > 테스트 결과 분석 > 데이터 수집 > 모델 빌딩과 테스트 > ....
반복하며 데이터 스케일을 늘리고 품질을 높이고 모델을 이에 맞게 더욱 깎아나감.
A/B test = 신약 임상실험의 온라인 버전
ETL에 주로 사용하는 tool
- AriFlow
데이터 문해력
- 데이터 기반 의사결정, 제품 결정, 생산성 증대 가 시작점
머신러닝, 데이터분석은 GIGO기 때문에 항상 데이터 클린업(EDA)와 더불어 적재 레포같은걸 계속해서 관리하여
데이터 품질을 향상시키고 유지보수 해야함.
머신러닝을 사용할 때
대가리 깨져도 DL = X
간단한 알고리즘, 모델로 해결 가능한 문제는 최대한 간단하게 해결하는게 시간, 비용, 유지보수에서 이득임
모델 예측, 정확도가 떨어질 때 해야할 일
1. 데이터 깎기
2. 모델 깎기
3. 데이터 깎기
4. 모델 깎기
...
반복
'프로그래머스 > 데이터분석 데브코스' 카테고리의 다른 글
프로그래머스 데이터분석 데브코스 4-3 (0) | 2024.03.06 |
---|---|
프로그래머스 데이터분석 데브코스 4-2 (0) | 2024.03.05 |
프로그래머스 데이터분석 데브코스 4-1 (0) | 2024.03.04 |
데이터분석 데브코스 3 일차 (0) | 2024.02.23 |
데이터 분석 데브코스 2일차 (0) | 2024.02.20 |