프로그래머스/데이터분석 데브코스26 프로그래머스 데이터분석 데브코스 8-3 8-2에 배운 내용들은 주로 확률, 통계에 관한 내용이었는데 수식이 너무 많고 이해를 제대로 하지 못한 상태여서 기본적인 개념들 바퀴를 다시 만드는 작업을 하며 익히는 중이다. 8-3에서는 python의 matplotlib, seaborn 라이브러리에 대해 배웠다. matplotlib은 어째서인지 가장 처음 접한 라이브러리여서 익숙했다. seaborn의 존재는 알았지만, 산점도 히트맵 같은 기술이 그간 필요한 경우가 없었어서 접하지 못했었다. 가볍게 새로 알게된 부분들만 정리하겠다. 시각화 데이터 분석 결과를 plot이나 graph등을 통해 시각적으로 전달하는 방법 통계수치를 사용한 정량적 분석이 정확한 분석 내용을 전달하는데 강점이 있다면, 시각화는 데이터 분석 내용을 한눈에 볼 수 있게 내용을 효과적.. 2024. 4. 3. 프로그래머스 데이터분석 데브코스 8-1 5주차 프로젝트를 진행하며 분석에 대한 지식이 많이 부족하다는것을 다시한번 알게되었다. 어떻게 해결해야 할까 싶었는데 마침 8주차 강의가 분석에 관한 지식들인 것 같아서 즐겁다. 그래서인지 평소보다 정리가 정성스럽게 되었다. 데이터 분석을 해야 하는 이유. 데이터를 정리, 변환, 조작, 검사 하여 인사이트를 추출하는 작업. 의사결정 판단 기준이 주관적인 직감 에서 객관적인 데이터로. 주어진 데이터로 문제를 해결할 수 있을지 없을지 가늠 하는것 또한 데이터 분석이다. 분석보다는 어떻게 해결할지에 대한 고민이 중요 데이터 분석 프로세스 문제 정의 풀고자 하는 문제가 명확하지 않으면 데이터 분석은 무용지물 큰 문제를 작은 단위의 문제로 궁극적으로 해결하고자 하는 문제가 무엇인가. 해당 문제를 일으키는 원인이 .. 2024. 4. 1. 프로그래머스 데이터분석 데브코스 7-5 레퍼런스의 지진해일이 드디어 지나갔다. 계속 써보면서 계속 찾아보는것이 더 빠르게 익혀지기에 기억에 남는, 진짜 찾아보지 않는이상 모르는, 새로 접한것들을 가볍게 정리할 예정이다. 조건문 df[df['A'] > 3] 이렇게 사용하면 df['A']에서 3 이상인 것들만 추출한다. 또한 여기서 df['A'] > 3은 'A' 컬럼의 각 요소에 대해 > 3이라는 조건을 벡터화 방식으로 적용하고, 그 결과는 각 요소가 조건을 만족하는지 여부에 따른 Boolean 값의 시리즈가 된다. 벡터화 연산 벡터화 연산을 배우지는 않았지만 강력한 기능인 것 같아서 정리하려고 한다. predictions = rf.predict(ds_test) n_predictions = (predictions > 0.5).astype(bool.. 2024. 3. 29. 프로그래머스 데이터분석 데브코스 7-2 pandas 2일차, Series에 대해 배웠다. pandas 하면 Dataframe을 주로 접했기에 Series를 접할일이 크게 없었다. numpy array나 Series로 반환되는게 있을때면 to_list 사용한 후 list로 작업하거나 다시 DataFrame으로 만들어서 작업했었다. 그래서인지 오늘 강의 내용에서 신선한 충격을 준 것들이 몇가지 있었다. 오늘 내가 새롭게 배운것들을 가볍게 정리해 보겠다. 강의 중 실습하는 과정이 있었는데 그중에서 막혔던, 새로운 방법들이 있었던것을 간추렸다. df = pd.read_csv("TopRichestInWorld.csv", usecols=["Age"]).squeeze() df.index = pd.read_csv("TopRichestInWorld.csv",.. 2024. 3. 26. 프로그래머스 데이터분석 데브코스 7-1 길고 긴 SQL의 여정이 일부 마무리되고 Python월드의 푸바오 pandas를 배우기 시작했다. 여러가지 기본 함수들과 Dataframe의 기초를 배웠다. 익숙치 않은, 처음보는 함수들도 있었지만 이것들은 일단 계속 써가면서 익히는게 가장 쉽고 빠르기에 따로 정리는 하지 않겠다. 매우 중요하다고 느낀 부분은 얕은 복사와 깊은 복사 부분이다. 왜냐하면 지금까지는 커봤자 10mb, 20mb 정도의 csv 파일을 pandas로 조작해보았는데 엄청 큰 데이터셋에서 의도치 않게 원본 데이터셋을 바꿔버리면 확인, 수정에 시간이 매우 걸릴 것이라는 생각이 들었다. 그리고 pandas로 데이터셋을 조작하며 단 한번도 얕은, 깊은 복사에 대해 생각해본적이 없었기 때문이다. df_train_to_rs_tp = df_tr.. 2024. 3. 25. 프로그래머스 데이터분석 데브코스 6-5 4일차 숙제 리뷰와 SQL의 고급 문법들을 배웠다. Transaction Atomic하게 실행되어야 하는 SQL들을 묶어서 하나의 작업처럼 처리하는 방법 DDL이나 DML중 레코드를 수정/ 추가/ 삭제 한 것에만 의미가 있음 Select에는 트랙잭션을 사용할 이유가 없음 Begin과 End혹은 Begin, Commit 사이에 해당 SQL들을 사용 Transaction 과정에서 오류가 났다면 Rollback 가능 정리는 가볍게 이정도이다. 이어 Python 에서 Transaction을 관리하는 방법도 배웠다. Transaction 자체가 생소한 개념이지만 이전에 Transaction임을 인지하지 못하고 그냥 이렇게 해야 실행이 되니까 썼던 경험이 있었다. 이전에 Discord 챗봇을 만들고 서비스 할 때 .. 2024. 3. 22. 프로그래머스 데이터분석 데브코스 6-3 마참내 너무 좋은 환경에서 쿼리를 짤 수 있게 되었다. 여러가지 실습을 진행하였는데 다시한번 반드시 기억해야 할 것을 알려주셨다. 가볍게 정리해 보자면 현업에서는 깨끗한 데이터셋이 존재하지 않는다. 말 그대로 이런 실습 환경, 캐글 데이터셋처럼 어느정도 정제된 데이터셋이 아닐 수 밖에 없다. 1. 항상 데이터셋을 의심할 것. / 어딘가에 결측치가 있을 가능성, 이상치가 가득할 가능성, 잘못 수집되었을 가능성 등등 2. isnull과 같은 함수로 확인해 보는것이 아닌 실제 레코드의 일부라도 한번 확인해 보는것이 큰 도움이 된다. 항상 데이터 품질을 의심하는 버릇이 필요하다. 1. 중복체크 2. 최근 데이터 존재 여부(freshness) 3. primary key uniqueness 지켜지는지 확인 4. 결.. 2024. 3. 22. 프로그래머스 데이터분석 데브코스 6-2 기본적인 SQL 쿼리들을 복습하고 jupyter notebook 에서 aws redshift 접속하는 방법을 배웠다. 강의에선 colab을 사용했지만 vscode의 ui를 포기할수 없기에 로컬 환경에서도 시도해 보았다. https://arin-nya.tistory.com/37 jupyter notebook에서 sql 쓰기 %sql postgresql://ID:Password@DBadress %sql postgresql://ID:Password@DBaddress %load_ext sql pip install ipython-sql pip install pyscopg2-binary PostgreSQL db를 사용하기 위해 pyscogp2 라이브러리도 함께 설치했다. #sql server pip instal .. 2024. 3. 19. 프로그래머스 데이터분석 데브코스 6-1 클라우드 환경에서 돌아가는 데이터베이스, 웨어하우스의 종류를 배웠다. 기본적인 스키마(일반적으로 사용되는)를 배웠다. Star schema, denomalize schema가 있었는데 big query의 public ware house를 보면 각 테이블간 join을 사용할 수 있는 필드들이 있었다. 한개의 star schema가 아닌 users, orders, events 3개의 스키마에서 파생된 스키마들이 있는 형태였다. csv파일이지만 이렇게 단일 테이블, DB로 이루어진걸 denomalize schema로 부르는 것 같다. 위와 같은 구조에서 특정 값을 수정, 조회 하려면 일일이 접근해서 수정해야 하지만 star schema에서는 쿼리 작성이 조금 힘들뿐 작성만 잘하면 원하는 레코드를 뽑기가 비교적.. 2024. 3. 18. 이전 1 2 3 다음