sql 지식을 배우기 보단 sql을 활용하여 분석하는 방법을 배웠다.
가볍게 정리하면 아래와 같다.
결측치 확인
중복 확인
중복 제거를 위해 중복 값들의 데이터셋 이해, 행끼리 구분이 불가능한 데이터셋 존재 // 이 경우 중복이 발생함. 데이터셋 간 중복 여부가 분석 결과에 영향을 주는지 판단 해야함 쿼리 사용 방법에 따라 굳이 python 사용하지 않아도 데이터 분석 가능 쿼리 날려서 eda 한 후 python으로 활용
분석 기준을 세우고, 쿼리로 확인해 보고, python 활용해서 검증
분석 결과가 상식과 맞지 않다면 데이터 품질과 알고있는 상식을 다시한번 체크
sql에서도 상관계수 구할 수 있지만 엑셀, python 에서 구하는게 훨씬 쉬움
엑셀 correl, python pd.corr(df1), np .corrcoef()
전체 지표 확인 > 그룹화 후 분석 > 데이터 다시 확인
SQL!!! 어!!!!!디!!!!!에!!!! 쓰!!!나!!요!!!!!
라는 고민을 많이 했었는데,
지금까지 pandas로 데이터 조작을 해오면서 썼던 데이터셋들은 규격화 된 csv 파일들을 통해서 했었다.
하지만 현업 환경이나 다른 새로운 프로젝트를 하게된다면 데이터가 DB에 있을수도 있고
내가 원하는 필드가 존재하지 않을수도 있다.
물론 pandas로 합치고 계산하고 그래도 되겠지만 테이블이 꽤 큰 테이블이라면 DB에서 SQL로 일단 처리하고 가져와서 다시 조작을 하던 시각화를 하던 모델을 돌려보던 하는것이 좋겠다는 생각이 들었다.
with문이나 subquery, as를 어디에 어떻게 써야할 지 감을 못잡고 있었는데 오늘 자 강의 실습 자료로 많이 배웠다.
'프로그래머스 > 데이터분석 데브코스' 카테고리의 다른 글
프로그래머스 데이터분석 데브코스 6-2 (0) | 2024.03.19 |
---|---|
프로그래머스 데이터분석 데브코스 6-1 (0) | 2024.03.18 |
프로그래머스 데이터분석 데브코스 4-4 (0) | 2024.03.07 |
프로그래머스 데이터분석 데브코스 4-3 (0) | 2024.03.06 |
프로그래머스 데이터분석 데브코스 4-2 (0) | 2024.03.05 |