01. Explorer 주요 기능검색도구 : 데이터 세트 및 테이블의 이름으로 검색 가능, 실시간 데이터 반영, 일부 문자열만으로도 검색데이터세트BigQuery 리소스에 대한 액세스를 구성하고 제어하기 위해 사용되는 논리적 컨테이너테이블들이 모여있는 폴더다른 데이터베이스 시스템의 스키마와 비슷제한 및 주의사항데이터 세트 상 테이블 수는 무제한 (50,000개 이상이 될 경우 열거 성능의 저하)위치 정보를 가진다.테이블행과 열로 구성된 레코드 모음다른 데이터베이스 시스템의 테이블과 유사유형기본 테이블 : 표준 테이블, 테이블 클론, 테이블 스냅샷, 구체화된 뷰외부 테이블 : 외부 데이터, 파일에 접근할 수 있는 빅쿼리 스토리지를 사용하지 않는 테이블. ex 구글 클라우드 스토리지에 있는 파일 스프레드 시트..
01. 빅쿼리(BigQuery)란?BigQuery는 Google Cloud Platform(GCP)에서 제공하는 완전 관리형, 서버리스 데이터 웨어하우스이다. 이는 대규모 데이터 분석을 위한 빠르고 비용 효율적인 솔루션을 제공한다. 사용자는 SQL을 통해 데이터를 쿼리 할 수 있으며, Google의 인프라를 이용해 대량의 데이터를 신속하게 처리할 수 있다. Google BigQuery는 대규모 데이터 분석을 위한 강력한 도구로, 서버 관리의 부담 없이 데이터 분석에만 집중할 수 있도록 도와준다. 자동 확장성, 높은 성능, 다양한 통합 옵션 등 여러 장점을 통해 데이터 분석을 효율적으로 수행할 수 있다. 02. 특징사용자 입장에서 어느만큼의 성능 확보하고 데이터웨어하우스 운영하겠다는 접근이 아예 없는 형..
01. Task 연결 방법 Task 연결 방법에는 두가지 방법이 있다. 1. >>, >, > 로 task들을 연결해준다. 리스트 "[]" 로 같은 레벨의 테스크를 묶어줄 수 있다. t1 >> [t2, t3] >> t4 t5 >> t4 [t4, t7] >> t6 >> t8 dag 코드를 다 작성하고 git에 올려준다. airflow 디렉토리에서 pull 받는다. airflow 서비스를 실행시킨다. docker compose up + 파일이 바로 보이지 않는다면! dags 폴더에 스케줄러가 주기적으로 파싱을 하는데, 기본적으로 5분에 한번씩 스캔을 하기 때문에 파일이 바로 올라오지 않을 수 있다. Graph 탭에서 task의 선행-후행 관계가 잘 작성되었는지 확인할 수 있다. 참고: Airflow 마스터 클래스
01. 크론(Cron) 스케줄 유닉스 계열의 잡 스케줄러 task가 실행되어야 하는 시간(주기)를 정하기 위한 5개의 필드로 구성된 문자열 {분} {시} {일} {월} {요일} 순으로 구성 요일은 일-토요일이 0-6으로 표현 (0: 일요일, 1: 월요일, 2: 화요일, 3: 수요일, 4: 목요일, 5: 금요일, 6: 토요일) 02. 크론(Cron) 표현식 - 특수문자 * : 모든 값을 의미 ? : 특정한 값이 없음 - : 범위 지정 (ex. 월요일부터 수요일 = 1-3) , : 여러 값 지정 (ex. 월, 수, 금 = 1, 2, 3) / : 증가값 지정(시작시간 / 단위) (ex. 0분부터 매 5분 = 0/5) L : 마지막 값, 일, 요일 필드에만 사용 가능, (ex. 해당 월의 마지막일 = * * L..
01. Airflow DAG DAG - 오퍼레이터 : 특정 행위를 할 수 있는 기능을 모아 놓은 클래스 - Task : 오퍼레이터에서 객체화(인스턴스화)되어 DAG에서 실행 가능한 오브젝트 - Bash 오퍼레이터 : 쉘 스크립트 명령을 수행하는 오퍼레이터 DAG에서는 오퍼레이터를 통해 만들어진 Task들이 실행되는 것 Task는 방향성을 가지고 있고 순환되지 않는 형태로 연결되어 있음 Task의 수행 주체 - 스케줄러 : 머리역할 1. 우리가 만든 DAG 파일을 읽어 들인(파싱) 후 DB에 정보 저장 2. DAG 시작시간 결정 - 워커 : 실제 작업 수행 1. 스케줄러가 시킨 DAG 파일을 찾아 처리 2. 처리가 되기 전 후, 메타DB에 업데이트 02. DAG 작성하기 airflow 프로젝트 디렉토리에 ..
01. 도커(Docker) 설치하기 [MacOS] 개발환경 구성 - m1에 도커(Docker) 설치하기 [MacOS] 개발환경 구성 - m1에 도커(Docker) 설치하기 [설치 환경] Mac OS M1 01. 도커(Docker) 설치 아래 사이트에서 Docker Desktop for Mac with Apple silicon 선택하여 다운로드 https://docs.docker.com/desktop/install/mac-install/ Docker.dmg 실행 Docker Application 실행 후 서비스 najiwon.tistory.com 02. Airflow 설치하기 [MacOS] 개발환경 구성 - m1에 Airflow 설치하기 [MacOS] 개발환경 구성 - m1에 Airflow 설치하기 [설치..
01. Airflow 소개 - 파이썬을 이용해 워크플로우를 만들고 관리할 수 있는 오픈소스 기반 워크프로우 관리 도구 - 워크플로우를 DAG을 사용하여 정의, 관리하는 프로그램 - 자유도가 크고, 확장성이 좋음 02. Airflow 특징 - 파이썬으로 제작된 도구, 이용자가 워크플로우 생성시에도 파이썬으로 구현해야 함 - 하나의 워크플로우는 DAG(Directed Acyclic Graph)이라고 부르며 DAG 안에는 1개 이상의 Task가 존재 - Task간 선후행 연결이 가능하되 순환되지 않고 방향성을 가짐(=DAG) - Cron 기반의 스케줄링 - 모니터링 및 실패 작업에 대한 재실행 기능이 간편 03. Airflow 장점 - 파이썬에 익숙하다면 러닝 커브 빠르게 극복 가능 - 대규모 워크플로우 환경..
1. 빅데이터의 정의 빅데이터(Big Data)란? - 기존의 방식으로 표현/저장/처리/분석하기 어려운 다양한 소스의 큰 규모의 자료를 의미 - 거대한 규모(volume), 빠른 속도(velocity), 높은 다양성(variety)을 특징으로 하는 데이터 ex) SNS, 인터넷 문서, 웹 로그, 의료 기록, 기상, 유전, 센서, 카메라, ... 빅데이터의 특성 - 3V 규모(Volume) : 데이터의 크기(저장되는 물리적 데이터의 양) 다양성(Variety) : 다양한 종류의 데이터를 수용하는 특성 (ex. 텍스트, 이미지, 오디오, 비디오, ...) 속도(Velocity) : 데이터가 얼마나 빠르게 처리/분석되는지에 대한 특성 2. 빅데이터의 컴퓨팅 주요 개념 클러스터 클러스터는 개별 머신이 노드로 구..