클라우드에 대해서 관심은 있었는데 어떻게 공부해야될까 고민하다가 Google Cloud의 자격증인 PDE를 공부해보고 있다.
Professional Data Engineer Certification | Learn | Google Cloud
A Google Certified Data Engineer creates data processing systems and machine learning models on Google Cloud. Learn how to prepare for the exam.
cloud.google.com
CloudSkillsBoost에서 강의를 듣던 중 한참동안 이론을 설명해주다가 BigQuery 실습이 나왔는데 그전까지도 실습에도 나오지 않았다!
대략적인 문제 설명과 푸는 방법
- 목표
- 사용자 정의 데이터셋 생성
- 외부 파일로부터 테이블에 데이터 불러오기
- 스키마 정의
- SQL을 사용하여 데이터 query
- 집계/집합을 위한 SQL 설명
- 배경
- Jasper Jasmine Mines는 Flowlogistic의 주요 고객
- Flowlogistic은 2018년에만 8000편의 운송 작업
- 로그 파일은 일자/벤더항공사/운항거리/운항시간 등 각 항공편의 기록
- 문제
- 화물 운송 항공 로그를 조회
- BigQuery dataset 생성
- 분석가가 사용하기위한 dataset을 설명하는 쿼리를 실행
Task 1. Create a custom dataset
dataset 만들기라고 하는데 테이블을 만들면 된다.
triplog를 만들기 위한 정보 (csv 주소, schema)는 실습 페이지에 기재되어 있다
Task 2. Query the dataset
SELECT avg(minutes)
FROM JasmineJasper.triplog
WHERE origin = 'FRA'
AND destination = 'KUL'
GROUP BY airline
SELECT airline, avg(minutes)
FROM JasmineJasper.triplog
WHERE origin = 'LHR'
AND destination = 'KUL'
GROUP BY airline
ORDER BY avg(minutes) asc