프로그래머스/데이터분석 데브코스26 뒤늦게 써보는 데이터분석 데브코스 2기 후기 요약1. 취직이 급하거나, 현업 수준으로의 성장을 원한다면 실망할것.2. 정말 단순 호기심, 데이터 섹터를 가볍게 경험해보고 싶다면 만족할것. 올해 가장 후회되는 일이 있다면 이 과정에 국비지원 찬스를 날린게 아닐까 싶다.2기때보다 많은게 바뀌었을수도 있지만취직이 급한사람, 데이터 분야로 빠른 취직을 원하는 사람이라면 듣지 않는걸 추천한다.강의는 80% 이상이 재사용 강의이며 데이터 분석에 대한 심도있는 과정이 아닌데이터 관련 섹터의 전체적인 찍먹이다.단순 호기심으로 듣지말라는 문구가 써져있지만 단순 호기심이 아니라 그 이상, 현업수준을 기대한다면 무조건 실망할것이라고 생각한다.한쪽에서는 SQL만 알아도 된다고 하면서도 다른쪽에서는 ML/DL 강의가 진행된다. 프로젝트 또한 문제가 많았다.분석을 해야하.. 2024. 10. 15. 프로그래머스 데이터분석 데브코스 15-2(A/B test) 왜 A/B Test를 하고 왜 애자일 A/B Test가 필요한가 A/B Test 왜?? 하?? 나?? 요 ??비즈니스 관련 지표가 개선되는지 객관적으로 측정하기 위함가설 기반의 실제 사용자 대상 비교위험을 최소화 하기 위함아무리 사용자 설문 등이 좋아도 실제 사용자들이 어떻게 반응할지는 알 수 없음처음에는 작은 퍼센트의 사용자들에게만 새 기능을 노출시키고 문제가 없으면 퍼센트 증가왜 애자일 해야함?최근 경험했던것처럼 결과물이 이상해질수도 있음.(3차 프로젝트 EDA, 전처리 과정)잘못됨을 빠르게 파악하지 못할 가능성A/B테스트 결과의 빠른 반영을 위해 전체적인 A/B Test 프로세스가설설정 (가볍게)내부테스트(QA)일부 사용자에게 테스트테스트 하는 사용자 비율 늘려감A/B 테스트 결과로 중단, 지속 결.. 2024. 5. 21. 프로그래머스 데이터분석 데브코스 11-1 (선형대수) 선형대수 수 들이 모여있는 개념과 관련된 식을 연구하는 수학의 한 분야 수가 모여 있다는 것은 벡터 혹은 행렬이라고 함 수를 다루는 많은 학문 (데이터, 공학, 과학적 분석 등)에서 수의 연산을 빠르고 효과적으로 하기 위해 사용하는 도구 수의 집합을 기하학적인 형상으로 적용 하여 표현 시각적이고 직관적으로 수의 값을 이해 할 수 있음 기하학적으로 의미를 갖는 다양한 변환을 수학적으로 정의할 수 있음(회전, 스케일링 등) 수의 집합 : 스칼라, 벡터 행렬, 텐서 숫자는 특정한 방향으로 줄을 서듯 모일 수 있음 방향을 보통 차원이라고 부름 숫자들이 얼마나 모이는지에 따라 크기가 정해짐 스칼라 : 다른 숫자와 함꼐하지 않고 홀로 존재하는 수 벡터 : 한쪽 방향(차원)으로만 숫자가 모인 형태 → 1차원 행렬 :.. 2024. 4. 22. 프로그래머스 데이터분석 데브코스 11-1 (머신러닝의 기초) 머신러닝 데이터에서 지식을 추출하는 방법 머신 스스로가 데이터를 바탕으로 그 안에 있는 특징과 패턴을 찾아냄 특징과 패턴을 바탕으로 새로운 데이터에 대한 추론을 진행 명시적 프로그램 : 규칙 기반 전문가 시스템 (Rule-Based Expert System) 장점 처리 과정을 사람이 이해하기 쉬움 작은 데이터에서 효과적 단점 특정 규칙은 한 분야나 작업에 국한 변경에 대응이 어려움 규칙 설계 시 해당 문야의 전문가가 필요 머신러닝 명시적 프로그램의 한계를 극복할 수 있는 기법 데이터 내부에서 자주 발생하는 특징과 패턴을 감지 그러한 특징과 패턴을 Feture 문제를 해결하기 위한 판단 기준을 시스템 스스로 찾아냄 장점 예상치 못한 상관 관계를 파악하는데 탁월 특정 도메인에서 전문가가 필수로 필요하지 않음.. 2024. 4. 22. 프로그래머스 데이터분석 데브코스 10-3 (마케팅 지표) 접점 (Tuch Point) 제품/서비스를 고객에게 노출시키는 다양한 방법 크게 오프라인과 온라인 접점으로 나뉨 고객이 우리 서비스를 접하게 되는 다양한 방법, 혹은 경로 보통 온라인에 중점을 주지만 매장 방ㅁ누 혹은 Tv/신문광고와 같은 오프라인 접점도 존재 온라인 접점을 포커스로 진행 고객 접점 경로의 시간순 기록이 디지털 마케팅 데이터 분석의 시작 접점들은 페이스북, 구글, 네이버와 같은 마케팅 플랫폼이 되며 이를 채널이라고 부르기도 함 접점 = Touch Point = 채널 디지털 마케팅 디지털 접점(온라인)에 우리 서비스/제품에 대한 광고를 내는 것 이는 보통 캠페인이란 형태로 행해지고 구체적인 타켓 고객층을 갖고 시작 회사에 따라서는 다수의 접점에서 동시에 동일한 목적을 갖는 마케팅을 시작 크.. 2024. 4. 19. 프로그래머스 데이터분석 데브코스 10-3 (이커머스 지표) 서비스 사용 고객 활성 (Active) 정의 사용자가 활성 상태에 관한 명확한 정의가 중요 -> 지표 사전의 필요성 단순 로그인을 활성으로 볼 것인가? 아니라면 어떤 행동을 의미있는 행동이라 볼 것인가 DAU (Daily Active User) WAU (Weekly Active User) MAU (Monthly Active User) 잔존율/이탈율/수명 잔존율 = 재방문율 = 재구매율 사실 이 지표는 구독 기반 B2B 비지니스에서 더 중요 사용자 이탈율 보통 월 기준으로 사용자가 우리 서비스를 이탈하는지 여부를 보는 지표 반대는 사용자 잔존율 고객 잔존율은 고객이 계속해서 서비스를 사용하는 비율 고객 이탈율 = 1 - 고객 잔존율 고객 이탈을 예측할 수 있다면 이메일 마케팅등을 통해 재소통 시도가 가능 .. 2024. 4. 17. 프로그래머스 데이터분석 데브코스 10-3 (좋은 지표의 특성, 지표) 다양한 지표들을 배워서 글 하나에 다 적기보다는 나누어 적는게 낫다고 판단했다. 지표(KPI)는 왜 필요한가? 목표 설정과 집중 성과 측정 의사 결정 동기 부여 및 책임감 리소스 할당 (우선 순위) 추상적인 목표를 가시적이고 측정 가능한 목표로 전환 조직이 진행 상황을 추적하여 정보에 입각한 의사 결정 KPI(Key Performance Indicator) 조직 내에서 달성하고자 하는 중요한 목표 보통 정량적인 숫자가 선호됨 예를 들면 매출액, 혹은 유로회원의 수/비율 명확한 정의가 중요함 -> 지표 사전이 필요 KPI의 수는 적을수록 좋음 The Less is More Primary vs Secondary 잘 정의된 KPI -> 현재 상황을 알고 더 나은 계획 가능 정량적이기에 시간에 따른 성과를 추적.. 2024. 4. 17. 프로그래머스 데이터분석 데브코스 10-2 Snowflake가 선호되는 이유 스노우플레이크를 사용하는 기업 간 데이터 공유가 너무 쉽다. 스토리지와 컵퓨팅 인프라가 별도로 설정되는 가변 비용 모델 SQL기반으로 빅데이터 저장, 처리, 분석을 가능하게 해줌 비구조화 된 데이터 처리와 머신러닝 기능도 제공 CSV, JSON, Avro, Parquet 등과 같은 데이터 포맷을 지원 S3, GC 클라우드 스토리지, Azure Blog Storage 도 지원 배치 데이터 중심이지만 실시간 데이터 처리 지원 과거 데이터 쿼리 기능으로 트렌드 분서긍ㄹ 쉽게 해줌 웹 콘솔 이외에도 Python APu를 통한 관리, 제어 가능 ODBC/JDBC 연결도 지원 자체 스토리지 이외에도 클라우드 스토리지를 외부 테이블로 사용 가능 비용 구조 컴퓨팅 비용 : 쿼리 실행과.. 2024. 4. 16. 프로그래머스 데이터분석 데브코스 8-4 https://arin-nya.tistory.com/52 기초 통계 함수 바퀴 다시만들기 (1) 프로그래머스 데이터분석 데브코스 진행중에 통계, 확률쪽 이해도 잘 안되고 머리에 쉽게 정착하지 못해서 바퀴 다시만들기를 시작했다. 과정을 이해하기 위해 일부러 길게 작성한 부분도 있다 arin-nya.tistory.com 요번주 통계, 확률쪽 이해가 잘 되지 않아 기본적인 함수들의 정의를 코드로 구현하여 다른 포스트에 정리하였다. 전세계적으로 참 핫한 ML의 기본적인 부분을 배웠다. 수식도 많고 시각자료도 많아 반드시 기억해야 할것같은 부분, 이전에 비슷한 문제로 고통받았던 부분만 정리할 예정이다. 데이터 모델링의 정의 주어진 데이터에서 사용하고자 하는 x, 알고싶은 값 y가 있을 때 y = f(x) 라는 함.. 2024. 4. 4. 이전 1 2 3 다음