본문 바로가기
프로그래머스/데이터분석 데브코스

프로그래머스 데이터분석 데브코스 10-2

by 포잉띠 2024. 4. 16.

Snowflake가 선호되는 이유

  • 스노우플레이크를 사용하는 기업 간 데이터 공유가 너무 쉽다.
  • 스토리지와 컵퓨팅 인프라가 별도로 설정되는 가변 비용 모델
  • SQL기반으로 빅데이터 저장, 처리, 분석을 가능하게 해줌
    • 비구조화 된 데이터 처리와 머신러닝 기능도 제공
  •  CSV, JSON, Avro, Parquet 등과 같은 데이터 포맷을 지원
    • S3, GC 클라우드 스토리지, Azure Blog Storage 도 지원
  • 배치 데이터 중심이지만 실시간 데이터 처리 지원
  • 과거 데이터 쿼리 기능으로 트렌드 분서긍ㄹ 쉽게 해줌
  • 웹 콘솔 이외에도 Python APu를 통한 관리, 제어 가능
    • ODBC/JDBC 연결도 지원
    • 자체 스토리지 이외에도 클라우드 스토리지를 외부 테이블로 사용 가능

비용 구조

  • 컴퓨팅 비용 : 쿼리 실행과 데이터 로드와 기타 작업 수행에 소비되는 계산 리소스를 측정하는 단위
    1 Credit은 상황에 따라 다르지만 대략 2~4$
  • 스토리지 비용 : 1TB 당으로 계산
  • 네트워크 비용 : 지역 간 데이터 전송 혹은 다른 클라우드 간 데이터 전송 시 TB당 계산

 

Snowflake의 Copy 명령

Redshift, Bigquery에도 동일한 형태의 명령이 존재함

레코드를 하나씩 적재하지 않고 벌크로 레코드들이 있는 파일을 통째로 적재하는 방식

  1. 먼저 레코드들이 있는 파일들을 S3와 같은 클라우드 스토리지에 업로드
  2. 스토리지에 있는 파일들을 copy명령으로 목적 테이블에 벌크로 적재
    이 방식을 사용하려면 클라우드 스토리지와 접근 권한 설정이 중요해짐
  3. S3라면 입력 레코드들이 있는 파일들이 적재될 버킷을 생성
  4. 버킷에 파일들을 업로드
  5. 클라우드 스토리지에 접근할 수 있는 권한을 설정 (ex. aws IAM)
  6. 그 권한 정보를 Snowflake copy 명령에서 사용

 

Data Governance

필요한 데이터가 적재적소에 올바르게 사용됨을 보장하기 위한 데이터 관리 프로세스

  • 품질 보장과 데이터 관련 법규 준수를 주 목적으로 함

다음을 이룩하기 위함이 기본 목적

  • 데이터 기반 결정에서의 일관성
    • 예 : KPI등의 지표 정의와 계산에 있어 일관성
  • 데이터를 이용한 가치 만들기
    • Citizen Data Sccientist가 더 효율적으로 일할 수 있게 도와주기
    • Data Siols를 없애기
  • 데이터 관련 법규 준수
    • 개인정보 보호 -> 적절한 권한 설정과 보안 프로세스 필수