Snowflake가 선호되는 이유
- 스노우플레이크를 사용하는 기업 간 데이터 공유가 너무 쉽다.
- 스토리지와 컵퓨팅 인프라가 별도로 설정되는 가변 비용 모델
- SQL기반으로 빅데이터 저장, 처리, 분석을 가능하게 해줌
- 비구조화 된 데이터 처리와 머신러닝 기능도 제공
- CSV, JSON, Avro, Parquet 등과 같은 데이터 포맷을 지원
- S3, GC 클라우드 스토리지, Azure Blog Storage 도 지원
- 배치 데이터 중심이지만 실시간 데이터 처리 지원
- 과거 데이터 쿼리 기능으로 트렌드 분서긍ㄹ 쉽게 해줌
- 웹 콘솔 이외에도 Python APu를 통한 관리, 제어 가능
- ODBC/JDBC 연결도 지원
- 자체 스토리지 이외에도 클라우드 스토리지를 외부 테이블로 사용 가능
비용 구조
- 컴퓨팅 비용 : 쿼리 실행과 데이터 로드와 기타 작업 수행에 소비되는 계산 리소스를 측정하는 단위
1 Credit은 상황에 따라 다르지만 대략 2~4$ - 스토리지 비용 : 1TB 당으로 계산
- 네트워크 비용 : 지역 간 데이터 전송 혹은 다른 클라우드 간 데이터 전송 시 TB당 계산
Snowflake의 Copy 명령
Redshift, Bigquery에도 동일한 형태의 명령이 존재함
레코드를 하나씩 적재하지 않고 벌크로 레코드들이 있는 파일을 통째로 적재하는 방식
- 먼저 레코드들이 있는 파일들을 S3와 같은 클라우드 스토리지에 업로드
- 스토리지에 있는 파일들을 copy명령으로 목적 테이블에 벌크로 적재
이 방식을 사용하려면 클라우드 스토리지와 접근 권한 설정이 중요해짐 - S3라면 입력 레코드들이 있는 파일들이 적재될 버킷을 생성
- 버킷에 파일들을 업로드
- 클라우드 스토리지에 접근할 수 있는 권한을 설정 (ex. aws IAM)
- 그 권한 정보를 Snowflake copy 명령에서 사용
Data Governance
필요한 데이터가 적재적소에 올바르게 사용됨을 보장하기 위한 데이터 관리 프로세스
- 품질 보장과 데이터 관련 법규 준수를 주 목적으로 함
다음을 이룩하기 위함이 기본 목적
- 데이터 기반 결정에서의 일관성
- 예 : KPI등의 지표 정의와 계산에 있어 일관성
- 데이터를 이용한 가치 만들기
- Citizen Data Sccientist가 더 효율적으로 일할 수 있게 도와주기
- Data Siols를 없애기
- 데이터 관련 법규 준수
- 개인정보 보호 -> 적절한 권한 설정과 보안 프로세스 필수
'프로그래머스 > 데이터분석 데브코스' 카테고리의 다른 글
프로그래머스 데이터분석 데브코스 10-3 (이커머스 지표) (0) | 2024.04.17 |
---|---|
프로그래머스 데이터분석 데브코스 10-3 (좋은 지표의 특성, 지표) (0) | 2024.04.17 |
프로그래머스 데이터분석 데브코스 8-4 (0) | 2024.04.04 |
프로그래머스 데이터분석 데브코스 8-3 (1) | 2024.04.03 |
프로그래머스 데이터분석 데브코스 8-1 (0) | 2024.04.01 |