01. Explorer 주요 기능
- 검색도구 : 데이터 세트 및 테이블의 이름으로 검색 가능, 실시간 데이터 반영, 일부 문자열만으로도 검색
- 데이터세트
- BigQuery 리소스에 대한 액세스를 구성하고 제어하기 위해 사용되는 논리적 컨테이너
- 테이블들이 모여있는 폴더
- 다른 데이터베이스 시스템의 스키마와 비슷
- 제한 및 주의사항
- 데이터 세트 상 테이블 수는 무제한 (50,000개 이상이 될 경우 열거 성능의 저하)
- 위치 정보를 가진다.
- 테이블
- 행과 열로 구성된 레코드 모음
- 다른 데이터베이스 시스템의 테이블과 유사
- 유형
- 기본 테이블 : 표준 테이블, 테이블 클론, 테이블 스냅샷, 구체화된 뷰
- 외부 테이블 : 외부 데이터, 파일에 접근할 수 있는 빅쿼리 스토리지를 사용하지 않는 테이블. ex 구글 클라우드 스토리지에 있는 파일 스프레드 시트에 있는 데이터에 접근한다 할 때 그 데이터를 빅쿼리에 저장하지 않으면서 외부에 있는 데이터 소스에 바로 접근해서 볼 수 있는 테이블
- 뷰 테이블 : 쿼리가 저장된(실제 데이터 x) 쿼리의 조회 결과를 저장하는 테이블
02. 코드 편집기와 단축키
- 쿼리 실행 : ctrl + enter
- 선택 항목 실행 : ctrl + e / cmd + e
- 편집 실행 취소 : ctrl + z / cmd + z
- 멀티 커서 선택
- ctrl + d / cmd + d
- ctrl + alt + up / cmd + alt + up
03. 쿼리 시험 이전 수행
Validator
- check process byte : 입력된 쿼리에 대한 조회 용량 확인용
- check error message : 입력된 쿼리에 대한 에러 확인용
- 가능한 이유 - 쿼리 시험 이전 수행, Dry Run
- 쿼리에서 읽을 바이트 수를 추정하는 기능
- 테스트 실행에 대한 요금 미청구
- 사용방법
- 콘솔에서 쿼리 입력 후 validator에서 확인
- bq 명령줄 도구에서 —dry_run 플래그를 사용
- API 또는 클라이언트 라이브러리를 사용하여 쿼리 작업을 제출할 때 dryRun 매개변수를 사용
- 입력한 쿼리를 미리 먼저 돌려보기 때문, 실제 수행하는건 아니고 쿼리 계획을 짜보는 것
04. 쿼리 계획 및 타임라인
다른 데이터베이스 및 분석 시스템에서 EXPLAIN과 유사
- 진단 쿼리 계획과 타이밍 정보 제공
실행 그래프를 일련의 쿼리 스테이지로 세분화하고, 스테이지 하위의 실행문이 출력됨.
장기간 실행 중인 쿼리의 경우 주기적으로 업데이트
쿼리 실행 중 퍼포먼스 향상을 위해 계획이 변경될 수 있음
05. 예시 쿼리 #1
빅쿼리에서 제공하는 public 데이터에 접근할 수 있다.
Google 클라우드 플랫폼
로그인 Google 클라우드 플랫폼으로 이동
accounts.google.com
bigquery public-data 프로젝트 내에 있는 데이터 셋을 확인할 수 있다.
쿼리가 정상으로 입력되면 처리 용량을 안내해준다.
쿼리에 오류가 있다면 오류를 안내해준다.
쿼리 결과로 작업 정보, 결과, 차트 및 JSON 형식으로 변환된 결과를 확인할 수 있다.
실행 세부정보는 성능 개선할 때 참고하여 도움이 될 수 있다.
또한, 실행한 쿼리 작업에 대한 세부정보를 확인할 수 있다.
참고
BigQuery시작하기 2강 - BigQuery Console | T아카데미
'⚙️ 데이터 엔지니어링 > BigQuery' 카테고리의 다른 글
[BigQuery] Google Cloud Platform(GCP)에서 BigQuery 시작하기 (0) | 2024.05.28 |
---|