본문 바로가기

프로그래머스59

프로그래머스 데이터분석 데브코스 4-1 우선 DB 구조 자체에 모호한 것이 있어 gpt에게 정리를 부탁했다. 열 == 필드 행 == 레코드 No SQL No SQL에도 종류가 있을텐데 이 종류마다 데이터 적재하는 방법이 다르다고 한다. 대량 Data처리에 적합하다. Json, XML등 다양한 형태의 Data가 적재된다. 보통 DB하면 테이블, 레코드, 컬럼 이런것들로 구성되어 있지만 여긴 그런것이 아닌 DB마다 고유한 API로 이루어져 있다. 대량 Data를 적재하고 처리하는 특성 때문인지 중복된 Data가 있을 수 있고 손실도 일어날 수 있고 결측치 또한 가득할 수도 있다. 성능만을 위해 만들어진, 많은걸 빠르게 처리하기 위해 만들어진 녀석 같다. where 사용 시 국룰 쿼리를 그간 한줄로 쭉~ 길게 가독성 끔찍하게 짜왔는데 select .. 2024. 3. 4.
sql 중복 제거하기 동물 보호소에 들어온 동물의 이름은 몇 개인지 조회하는 SQL 문을 작성해주세요. 이때 이름이 NULL인 경우는 집계하지 않으며 중복되는 이름은 하나로 칩니다. 가 문제인데, 몇개인지 조회하기 위해 select count(column_name) from table_name 을 실행시켰다. 결측치가 있는 테이블이라 결측치와 중복된 값까지 모두 계산하여 출력하였다. 문제에서는 null, 중복을 허용하지 않은 횟수를 원하기에 중복 제거를 위해 distinct를 결측치를 제외한 값을 조회하기 위해 is not null 을 사용했다. 정답이 나온 쿼리문은 SELECT COUNT(DISTINCT column_name) FROM table_name WHERE column_name IS NOT NULL 2024. 3. 1.
데이터분석 데브코스 3 일차 데싸 ML 형태로 사용자들의 경험을 개선 요구스킬 - ML지식, 경험 - Python, SQL - 통계, 수학 지식 - 끈기와 열정(박사학위가 중요한 이유 중 하나) 최우선 요구사항 열정+끈기 다양한 경험 코딩 능력 현실적인 접근방법 - 최대한 간결한 솔루션 - 사용 가능한 머신러닝 기술이 다양해야 어떤 케이스에 어떤 모델을 사용해야 최고 효율을 내고 간결한지 빠르게 파악가능 의료 이미지 분석 섹터 이 섹터 만큼은 딥러닝 장려 MRI, Xray, CT 이미지 분석에서 이미 사람을 앞섰다. = 안전성, 비용에 있어 엄청난 이점을 보임 머신러닝의 정의 학습이 가능한 기계의 개발. - 이는 결국 데이터의 패턴을 보고 흉내내는 방식이다. - 컴퓨터가 학습할 수 있는 알고리즘과 기술을 개발하는 분야. 머신러닝 모.. 2024. 2. 23.
데이터 분석 데브코스 2일차 ETL AirFlow를 스케쥴러로 사용 데이터의 양, ETL이 늘어날수록 Pandas로 처리가 불가능한 상황이 오는데, 이 때 사용하는게 Spark ELT ETL을 통해 Data warehouse에 적재된 data를 재조합하여 새로운 정보, 가치 창출 시각화라던지 머신러닝을 돌려본다던지 등등 데이터 문해력 - 데이터 기반 의사결정, 제품개선 이 되는지. 생산성 증대로 이끌 수 있는가. Data CleanUpEDA(pandas, spark같은 파이썬 라이브러리로 품질관리), DBT(툴 이름) 사용 ====================================== KPI(Key Perfomance Indicator) 조직 내에서 달성하고자 하는 목표 정량적인 수치 선호 정량적인 수치로 되어있기에 시간에 .. 2024. 2. 20.
데이터분석 데브코스 1일차 데이터 기반 지표 (KPI, Key Performance Indicator 등등) 정의는 데이터 문해력을 기르는 시작점이다. Data Warehouse - 수집한 데이터들을 규격화 하여 적재하는곳 / 데이터 수집 > 적재 과정을 주로 ETL 이라고 칭함. - 각종 대쉬보드 툴들의 백엔드 - 3대장으로는 tableau, power B/I, Looker 가 있음 클라우드 서비스는 불필요하게 자원이 남지 않도록 할 것 이번 코스에선 Aws RedShift 주로 사용할예정 Data Team Cycle 가설 정의 > 데이터 수집 > 모델 빌딩과 테스트 > 모델 배포 > A/B 테스트 > 테스트 결과 분석 > 데이터 수집 > 모델 빌딩과 테스트 > .... 반복하며 데이터 스케일을 늘리고 품질을 높이고 모델을 이에.. 2024. 2. 20.