본문 바로가기
프로그래머스/데이터분석 데브코스

프로그래머스 데이터분석 데브코스 4-5

by 포잉띠 2024. 3. 8.

sql 지식을 배우기 보단 sql을 활용하여 분석하는 방법을 배웠다.

 

가볍게 정리하면 아래와 같다.

 

결측치 확인

중복 확인

중복 제거를 위해 중복 값들의 데이터셋 이해, 행끼리 구분이 불가능한 데이터셋 존재 // 이 경우 중복이 발생함. 데이터셋 간 중복 여부가 분석 결과에 영향을 주는지 판단 해야함 쿼리 사용 방법에 따라 굳이 python 사용하지 않아도 데이터 분석 가능 쿼리 날려서 eda 한 후 python으로 활용

분석 기준을 세우고, 쿼리로 확인해 보고, python 활용해서 검증

분석 결과가 상식과 맞지 않다면 데이터 품질과 알고있는 상식을 다시한번 체크

sql에서도 상관계수 구할 수 있지만 엑셀, python 에서 구하는게 훨씬 쉬움

엑셀 correl, python pd.corr(df1), np .corrcoef()

전체 지표 확인 > 그룹화 후 분석 > 데이터 다시 확인

 

SQL!!! 어!!!!!디!!!!!에!!!! 쓰!!!나!!요!!!!!

라는 고민을 많이 했었는데,

지금까지 pandas로 데이터 조작을 해오면서 썼던 데이터셋들은 규격화 된 csv 파일들을 통해서 했었다.

하지만 현업 환경이나 다른 새로운 프로젝트를 하게된다면 데이터가 DB에 있을수도 있고

내가 원하는 필드가 존재하지 않을수도 있다.

물론 pandas로 합치고 계산하고 그래도 되겠지만 테이블이 꽤 큰 테이블이라면 DB에서 SQL로 일단 처리하고 가져와서 다시 조작을 하던 시각화를 하던 모델을 돌려보던 하는것이 좋겠다는 생각이 들었다.

 

with문이나 subquery, as를 어디에 어떻게 써야할 지 감을 못잡고 있었는데 오늘 자 강의 실습 자료로 많이 배웠다.