본문 바로가기

IT/BigData

GCP PDE (Professional Data Engineering) PDE Prep: BigQuery Essentials 푸는법

클라우드에 대해서 관심은 있었는데 어떻게 공부해야될까 고민하다가 Google Cloud의 자격증인 PDE를 공부해보고 있다. 

 

Professional Data Engineer Certification  |  Learn  |  Google Cloud

A Google Certified Data Engineer creates data processing systems and machine learning models on Google Cloud. Learn how to prepare for the exam.

cloud.google.com

 

CloudSkillsBoost에서 강의를 듣던 중 한참동안 이론을 설명해주다가 BigQuery 실습이 나왔는데 그전까지도 실습에도 나오지 않았다!

대략적인 문제 설명과 푸는 방법

  • 목표
    1. 사용자 정의 데이터셋 생성
    2. 외부 파일로부터 테이블에 데이터 불러오기
    3. 스키마 정의
    4. SQL을 사용하여 데이터 query
    5. 집계/집합을 위한 SQL 설명
  • 배경
    • Jasper Jasmine Mines는 Flowlogistic의 주요 고객
    • Flowlogistic은 2018년에만 8000편의 운송 작업
    • 로그 파일은 일자/벤더항공사/운항거리/운항시간 등 각 항공편의 기록
  • 문제
    • 화물 운송 항공 로그를 조회
    • BigQuery dataset 생성
    • 분석가가 사용하기위한 dataset을 설명하는 쿼리를 실행

Task 1. Create a custom dataset

dataset 만들기라고 하는데 테이블을 만들면 된다.

access create dataset
create JasmineJasper dataset
check JasmineJasper dataset
create table triplog

triplog를 만들기 위한 정보 (csv 주소, schema)는 실습 페이지에 기재되어 있다

check triplog table

Task 2. Query the dataset

SELECT avg(minutes)
  FROM JasmineJasper.triplog
 WHERE origin = 'FRA'
   AND destination = 'KUL'
 GROUP BY airline
SELECT airline, avg(minutes)
  FROM JasmineJasper.triplog
 WHERE origin = 'LHR'
   AND destination = 'KUL'
 GROUP BY airline
 ORDER BY avg(minutes) asc