본문 바로가기

전체 글136

프로그래머스 데이터분석 데브코스 8-3 8-2에 배운 내용들은 주로 확률, 통계에 관한 내용이었는데 수식이 너무 많고 이해를 제대로 하지 못한 상태여서 기본적인 개념들 바퀴를 다시 만드는 작업을 하며 익히는 중이다. 8-3에서는 python의 matplotlib, seaborn 라이브러리에 대해 배웠다. matplotlib은 어째서인지 가장 처음 접한 라이브러리여서 익숙했다. seaborn의 존재는 알았지만, 산점도 히트맵 같은 기술이 그간 필요한 경우가 없었어서 접하지 못했었다. 가볍게 새로 알게된 부분들만 정리하겠다. 시각화 데이터 분석 결과를 plot이나 graph등을 통해 시각적으로 전달하는 방법 통계수치를 사용한 정량적 분석이 정확한 분석 내용을 전달하는데 강점이 있다면, 시각화는 데이터 분석 내용을 한눈에 볼 수 있게 내용을 효과적.. 2024. 4. 3.

프로그래머스 데이터분석 데브코스 8-1 5주차 프로젝트를 진행하며 분석에 대한 지식이 많이 부족하다는것을 다시한번 알게되었다. 어떻게 해결해야 할까 싶었는데 마침 8주차 강의가 분석에 관한 지식들인 것 같아서 즐겁다. 그래서인지 평소보다 정리가 정성스럽게 되었다. 데이터 분석을 해야 하는 이유. 데이터를 정리, 변환, 조작, 검사 하여 인사이트를 추출하는 작업. 의사결정 판단 기준이 주관적인 직감 에서 객관적인 데이터로. 주어진 데이터로 문제를 해결할 수 있을지 없을지 가늠 하는것 또한 데이터 분석이다. 분석보다는 어떻게 해결할지에 대한 고민이 중요 데이터 분석 프로세스 문제 정의 풀고자 하는 문제가 명확하지 않으면 데이터 분석은 무용지물 큰 문제를 작은 단위의 문제로 궁극적으로 해결하고자 하는 문제가 무엇인가. 해당 문제를 일으키는 원인이 .. 2024. 4. 1.

행복 기쁨 2024. 3. 31.

프로그래머스 데이터분석 데브코스 7-5 레퍼런스의 지진해일이 드디어 지나갔다. 계속 써보면서 계속 찾아보는것이 더 빠르게 익혀지기에 기억에 남는, 진짜 찾아보지 않는이상 모르는, 새로 접한것들을 가볍게 정리할 예정이다. 조건문 df[df['A'] > 3] 이렇게 사용하면 df['A']에서 3 이상인 것들만 추출한다. 또한 여기서 df['A'] > 3은 'A' 컬럼의 각 요소에 대해 > 3이라는 조건을 벡터화 방식으로 적용하고, 그 결과는 각 요소가 조건을 만족하는지 여부에 따른 Boolean 값의 시리즈가 된다. 벡터화 연산 벡터화 연산을 배우지는 않았지만 강력한 기능인 것 같아서 정리하려고 한다. predictions = rf.predict(ds_test) n_predictions = (predictions > 0.5).astype(bool.. 2024. 3. 29.

프로그래머스 데이터분석 데브코스 7-2 pandas 2일차, Series에 대해 배웠다. pandas 하면 Dataframe을 주로 접했기에 Series를 접할일이 크게 없었다. numpy array나 Series로 반환되는게 있을때면 to_list 사용한 후 list로 작업하거나 다시 DataFrame으로 만들어서 작업했었다. 그래서인지 오늘 강의 내용에서 신선한 충격을 준 것들이 몇가지 있었다. 오늘 내가 새롭게 배운것들을 가볍게 정리해 보겠다. 강의 중 실습하는 과정이 있었는데 그중에서 막혔던, 새로운 방법들이 있었던것을 간추렸다. df = pd.read_csv("TopRichestInWorld.csv", usecols=["Age"]).squeeze() df.index = pd.read_csv("TopRichestInWorld.csv",.. 2024. 3. 26.

프로그래머스 데이터분석 데브코스 1차 프로젝트 셀프리뷰 프로젝트 목표는 데이터셋을 구해서 SQL과 Excel, Tableau 같이 지금까지 과정에서 배운걸 사용하여 분석을 진행하는 것이다. 2024년 3월 11일부터 2024년 3월 20일까지 약 10일간 진행하였다. 처음은 아래 링크의 데이터셋으로 분석을 진행했다. https://www.kaggle.com/datasets/ayushparwal2026/online-ecommerce Online-eCommerce buying and selling of goods or services over the world. www.kaggle.com 단순히 보았을때 결측치가 적었고 데이터셋 이해하기가 쉬울것 같아서 조원들에게 이 데이터셋을 사용해서 진행하자고 했다. 하지만 유의미한 결과를 찾기 힘들었고, 데이터가 잘못 적재.. 2024. 3. 25.

프로그래머스 데이터분석 데브코스 1차 프로젝트 자료 Query with count_r_c as( SELECT FORMAT_TIMESTAMP('%Y-%m', o.created_at) AS year_month, count(case when o.status = 'Returned' then 1 end) as returned, count(case when o.status = 'Cancelled' then 1 end)as cancelled, count(case when o.gender = 'F' then 1 end) as order_by_female, count(case when o.gender = 'M' then 1 end) as order_by_male FROM `bigquery-public-data.thelook_ecommerce.orders` o group .. 2024. 3. 25.

프로그래머스 데이터분석 데브코스 7-1 길고 긴 SQL의 여정이 일부 마무리되고 Python월드의 푸바오 pandas를 배우기 시작했다. 여러가지 기본 함수들과 Dataframe의 기초를 배웠다. 익숙치 않은, 처음보는 함수들도 있었지만 이것들은 일단 계속 써가면서 익히는게 가장 쉽고 빠르기에 따로 정리는 하지 않겠다. 매우 중요하다고 느낀 부분은 얕은 복사와 깊은 복사 부분이다. 왜냐하면 지금까지는 커봤자 10mb, 20mb 정도의 csv 파일을 pandas로 조작해보았는데 엄청 큰 데이터셋에서 의도치 않게 원본 데이터셋을 바꿔버리면 확인, 수정에 시간이 매우 걸릴 것이라는 생각이 들었다. 그리고 pandas로 데이터셋을 조작하며 단 한번도 얕은, 깊은 복사에 대해 생각해본적이 없었기 때문이다. df_train_to_rs_tp = df_tr.. 2024. 3. 25.

희망이 2024. 3. 22.

이전 1 ··· 8 9 10 11 12 13 14 ··· 16 다음

티스토리툴바