
01. 빅쿼리(BigQuery)란?
BigQuery는 Google Cloud Platform(GCP)에서 제공하는 완전 관리형, 서버리스 데이터 웨어하우스이다. 이는 대규모 데이터 분석을 위한 빠르고 비용 효율적인 솔루션을 제공한다. 사용자는 SQL을 통해 데이터를 쿼리 할 수 있으며, Google의 인프라를 이용해 대량의 데이터를 신속하게 처리할 수 있다.
Google BigQuery는 대규모 데이터 분석을 위한 강력한 도구로, 서버 관리의 부담 없이 데이터 분석에만 집중할 수 있도록 도와준다. 자동 확장성, 높은 성능, 다양한 통합 옵션 등 여러 장점을 통해 데이터 분석을 효율적으로 수행할 수 있다.
02. 특징
사용자 입장에서 어느만큼의 성능 확보하고 데이터웨어하우스 운영하겠다는 접근이 아예 없는 형태에서 사용 가능하다.
개별 인스턴스 프로비저닝 설정 없이 바로 높은 성능의 데이터웨어하우스를 얻을 수 있다.
분석을 위한 데이터웨어하우스이다.
GCP가 자동으로 관리
- 개별 인스턴스 설정 없음
- 가상 머신 프로비저닝 설정 없음
분산형 분석 엔진
- TB급 쿼리를 초 단위로 수행
- FB급 쿼리를 분 단위로 수행
분석 데이터웨어하우스
- 머신러닝, 지리정보 분석, 비즈니스 인텔리전스 기능 제공
다양한 인터페이스 제공
여러가지 다른 도구들에서 API로 조회할 수 있도록 다양한 도구들을 제공한다.
- Google Cloud Console 인터페이스
- BigQuery 명령줄 도구
- BigQuery API
- Python, Java, JavaScript, Go, REST API 및 RPC API
- ODBC 및 JDBC 드라이버
과금 유형
- 분석 : 데이터 조회
- 쿼리를 처리할 때 발생하는 비용
- SQL 쿼리, 사용자 정의 함수, 스크립트, 테이블을 스캔하는 DML(데이터 조작 언어) 및 DDL(데이터 정의 언어) 문
- $5.00 per TB : 지역마다 다름(거의 비슷하지만 규모가 커지고 데이터가 많아지는 경우 신경 써야 할 부분)
- 매월 1TB 무료
- 쿼리를 처리할 때 발생하는 비용
- 저장
- 데이터를 저장하는 데 드는 비용
- 활성 스토리지 및 스토리지에 대한 비용으로 구분
- 활성 스토리지 $0.020 per GB
- 장기 스토리지 $0.010 per GB
- 매월 10GB까지는 무료
- 활성 > 장기 스토리지
- 90일간 수정되지 않을 경우 자동 변환
- 수집
- 데이터를 입력하는 데 드는 비용
- 수집의 유형과 비용
- 일괄 로드
- 단일 작업으로 소스 데이터를 BigQuery 테이블에 로드
- 무료
- 스트리밍
- 한 번에 하나의 레코드 또는 소규모 배치로 데이터를 스트리밍
- 삽입에 성공한 행의 요금만 청구. 각 행은 최소 1KB로 계산
- 0.010 per 200 MB
- 일괄 로드
- 수출
- 데이터를 추출하는 데 드는 비용
- 추출의 유형과 비용
- 일괄 내보내기
- 테이블 데이터를 Cloud Storage로 저장
- 무료(단, Cloud Storage에 저장된 데이터에 대한 요금 부과)
- 스트리밍 읽기
- 1.1 per TB read
- 일괄 내보내기
할당량 및 한도
- Cloud 프로젝트가 사용할 수 있는 리소스의 양을 제한
- 초과 시 Google 리소스에 대한 액세스를 즉시 차단, 작업 실패
- 할당량 및 한도는 프로젝트 별로 적용
- cloud console → 할당량에서 조정 가능
영향을 받는 작업
- 복사
- DML
- 데이터 세트
- 내보내기
- 로드 : 일일 100,000개, 작업 당 15TB
- 쿼리 : 조회 무제한, 동시 실행 100개, 동시 스크립트 실행 1,000개, 실행시간 6시간 등
- 스트리밍 삽입
- 테이블 작업 : 생성, 삭제, 복자 포함 1,500개, 10초당 5개
- UDF
03. BigQuery 사용 사례
- 비즈니스 인텔리전스(BI): 실시간 데이터 분석을 통해 비즈니스 결정을 지원한다.
- 데이터 웨어하우징: 다양한 소스에서 데이터를 통합하고 분석할 수 있다.
- 마케팅 분석: 고객 행동을 분석하여 마케팅 전략을 최적화한다.
- 기계 학습: BigQuery ML을 통해 SQL을 사용하여 기계 학습 모델을 만들고 배포할 수 있다.
04. GCP에서 BigQuery 시작하기
Google Cloud 접속하여 구글 계정으로 로그인
( https://cloud.google.com/ )
클라우드 컴퓨팅 서비스 | Google Cloud
데이터 관리, 하이브리드 및 멀티 클라우드, AI와 머신러닝 등 Google의 클라우드 컴퓨팅 서비스로 비즈니스 당면 과제를 해결하세요.
cloud.google.com
로그인하여 첫 페이지 [무료로 시작하기] 클릭

GCP 이용 전 필요한 정보 및 결제 수단을 등록한다.


빅쿼리를 선택한다.


이제 GCP에서 BigQuery를 사용할 수 있다.

구글 내에 있는 샘플 테이블로 데이터를 한번 출력해 보자
SELECT
name, gender,
SUM(number) AS total
FROM
`bigquery-public-data.usa_names.usa_1910_2013`
GROUP BY
name, gender
ORDER BY
total DESC
LIMIT
5


쿼리를 실행하면 조회 결과를 확인할 수 있다.
05. BigQuery 데이터셋 만들기

콘솔에서 데이터 세트 만들기를 클릭한다.

데이터셋 ID를 입력하고 위치 및 기타 설정을 지정하고 데이터세트 만들기를 클릭한다.

데이터세트가 생성되었다.
06. 데이터셋에 테이블 추가하기

이전에 생성한 temp 데이터셋에 메뉴에서 테이블 만들기 메뉴를 선택한다.

우선은 기본 설정으로 테이블을 만들어보자

테이블이 만들어졌다.
test 테이블을 클릭해 보면 편집기에서 테이블에 대한 스키마와 세부정보 등을 확인할 수 있다.
참고
BigQuery 시작하기 1강 - Introduction | T아카데미
'⚙️ 데이터 엔지니어링 > BigQuery' 카테고리의 다른 글
[BigQuery] BigQuery Explorer 알아보기 (1) | 2024.06.12 |
---|

01. 빅쿼리(BigQuery)란?
BigQuery는 Google Cloud Platform(GCP)에서 제공하는 완전 관리형, 서버리스 데이터 웨어하우스이다. 이는 대규모 데이터 분석을 위한 빠르고 비용 효율적인 솔루션을 제공한다. 사용자는 SQL을 통해 데이터를 쿼리 할 수 있으며, Google의 인프라를 이용해 대량의 데이터를 신속하게 처리할 수 있다.
Google BigQuery는 대규모 데이터 분석을 위한 강력한 도구로, 서버 관리의 부담 없이 데이터 분석에만 집중할 수 있도록 도와준다. 자동 확장성, 높은 성능, 다양한 통합 옵션 등 여러 장점을 통해 데이터 분석을 효율적으로 수행할 수 있다.
02. 특징
사용자 입장에서 어느만큼의 성능 확보하고 데이터웨어하우스 운영하겠다는 접근이 아예 없는 형태에서 사용 가능하다.
개별 인스턴스 프로비저닝 설정 없이 바로 높은 성능의 데이터웨어하우스를 얻을 수 있다.
분석을 위한 데이터웨어하우스이다.
GCP가 자동으로 관리
- 개별 인스턴스 설정 없음
- 가상 머신 프로비저닝 설정 없음
분산형 분석 엔진
- TB급 쿼리를 초 단위로 수행
- FB급 쿼리를 분 단위로 수행
분석 데이터웨어하우스
- 머신러닝, 지리정보 분석, 비즈니스 인텔리전스 기능 제공
다양한 인터페이스 제공
여러가지 다른 도구들에서 API로 조회할 수 있도록 다양한 도구들을 제공한다.
- Google Cloud Console 인터페이스
- BigQuery 명령줄 도구
- BigQuery API
- Python, Java, JavaScript, Go, REST API 및 RPC API
- ODBC 및 JDBC 드라이버
과금 유형
- 분석 : 데이터 조회
- 쿼리를 처리할 때 발생하는 비용
- SQL 쿼리, 사용자 정의 함수, 스크립트, 테이블을 스캔하는 DML(데이터 조작 언어) 및 DDL(데이터 정의 언어) 문
- $5.00 per TB : 지역마다 다름(거의 비슷하지만 규모가 커지고 데이터가 많아지는 경우 신경 써야 할 부분)
- 매월 1TB 무료
- 쿼리를 처리할 때 발생하는 비용
- 저장
- 데이터를 저장하는 데 드는 비용
- 활성 스토리지 및 스토리지에 대한 비용으로 구분
- 활성 스토리지 $0.020 per GB
- 장기 스토리지 $0.010 per GB
- 매월 10GB까지는 무료
- 활성 > 장기 스토리지
- 90일간 수정되지 않을 경우 자동 변환
- 수집
- 데이터를 입력하는 데 드는 비용
- 수집의 유형과 비용
- 일괄 로드
- 단일 작업으로 소스 데이터를 BigQuery 테이블에 로드
- 무료
- 스트리밍
- 한 번에 하나의 레코드 또는 소규모 배치로 데이터를 스트리밍
- 삽입에 성공한 행의 요금만 청구. 각 행은 최소 1KB로 계산
- 0.010 per 200 MB
- 일괄 로드
- 수출
- 데이터를 추출하는 데 드는 비용
- 추출의 유형과 비용
- 일괄 내보내기
- 테이블 데이터를 Cloud Storage로 저장
- 무료(단, Cloud Storage에 저장된 데이터에 대한 요금 부과)
- 스트리밍 읽기
- 1.1 per TB read
- 일괄 내보내기
할당량 및 한도
- Cloud 프로젝트가 사용할 수 있는 리소스의 양을 제한
- 초과 시 Google 리소스에 대한 액세스를 즉시 차단, 작업 실패
- 할당량 및 한도는 프로젝트 별로 적용
- cloud console → 할당량에서 조정 가능
영향을 받는 작업
- 복사
- DML
- 데이터 세트
- 내보내기
- 로드 : 일일 100,000개, 작업 당 15TB
- 쿼리 : 조회 무제한, 동시 실행 100개, 동시 스크립트 실행 1,000개, 실행시간 6시간 등
- 스트리밍 삽입
- 테이블 작업 : 생성, 삭제, 복자 포함 1,500개, 10초당 5개
- UDF
03. BigQuery 사용 사례
- 비즈니스 인텔리전스(BI): 실시간 데이터 분석을 통해 비즈니스 결정을 지원한다.
- 데이터 웨어하우징: 다양한 소스에서 데이터를 통합하고 분석할 수 있다.
- 마케팅 분석: 고객 행동을 분석하여 마케팅 전략을 최적화한다.
- 기계 학습: BigQuery ML을 통해 SQL을 사용하여 기계 학습 모델을 만들고 배포할 수 있다.
04. GCP에서 BigQuery 시작하기
Google Cloud 접속하여 구글 계정으로 로그인
( https://cloud.google.com/ )
클라우드 컴퓨팅 서비스 | Google Cloud
데이터 관리, 하이브리드 및 멀티 클라우드, AI와 머신러닝 등 Google의 클라우드 컴퓨팅 서비스로 비즈니스 당면 과제를 해결하세요.
cloud.google.com
로그인하여 첫 페이지 [무료로 시작하기] 클릭

GCP 이용 전 필요한 정보 및 결제 수단을 등록한다.


빅쿼리를 선택한다.


이제 GCP에서 BigQuery를 사용할 수 있다.

구글 내에 있는 샘플 테이블로 데이터를 한번 출력해 보자
SELECT
name, gender,
SUM(number) AS total
FROM
`bigquery-public-data.usa_names.usa_1910_2013`
GROUP BY
name, gender
ORDER BY
total DESC
LIMIT
5


쿼리를 실행하면 조회 결과를 확인할 수 있다.
05. BigQuery 데이터셋 만들기

콘솔에서 데이터 세트 만들기를 클릭한다.

데이터셋 ID를 입력하고 위치 및 기타 설정을 지정하고 데이터세트 만들기를 클릭한다.

데이터세트가 생성되었다.
06. 데이터셋에 테이블 추가하기

이전에 생성한 temp 데이터셋에 메뉴에서 테이블 만들기 메뉴를 선택한다.

우선은 기본 설정으로 테이블을 만들어보자

테이블이 만들어졌다.
test 테이블을 클릭해 보면 편집기에서 테이블에 대한 스키마와 세부정보 등을 확인할 수 있다.
참고
BigQuery 시작하기 1강 - Introduction | T아카데미
'⚙️ 데이터 엔지니어링 > BigQuery' 카테고리의 다른 글
[BigQuery] BigQuery Explorer 알아보기 (1) | 2024.06.12 |
---|