06/09 2021

【AWS 數據戰情室】Day 15 Glue ETL Job 教學 – Part 2

AWS數據分析 glue etl job

完成 S3 資料源的準備後,我們來看如何使用 Glue ETL Job,先來介紹 Spark 的部分

  1. 首先創建一個 Glue Job
AWS Glue ETL Job
  1. 第一個設定頁面是 Job 的基本設定,跟運算有關的都在這邊進行設定
    • IAM role:這邊的 Role 使用 Day 6 所創建的 Role(ITGlue)
    • Type:Type 的部分先選擇 Spark
    • Glue version:選擇最新的 Spark 2.4, Python 3(Glue version 2.0)
    • Monitoring options:這邊建議 Job metrics 與 Continuous logging 都打勾啟用,可以讓我們在遇到運算失敗時有資訊可以 Troubleshooting
AWS Glue ETL Job
  1. 在當前頁面繼續往下可以看到 Security configuration, script libraries, and job parameters (optional) 的選單,這邊可以設定是否加密、Import 以外所需的 Python library,以及設定要使用的運算資源大小
    • Worker Type:此參數可以設定要使用的運算類型
      • Standard:此執行類型可以應付單純的資料轉移、資料過濾、欄位拆分或合併
      • G.1X:如果需要進行 Join、Group、對資料進行計算時,選擇此類型會比較適合,因為在執行這些運算時會使用較多的記憶體
      • G.2X:進行更複雜的 ETL 計算工作時可能會需要更多的記憶體,這時就可以選擇此類型的運算資源
    • Number of workers:可以把這個參數想成有多少台 VM 進行運算,每個VM 會根據所選擇的 Worker Type 會有不同的 CPU、Memory
      • Standard 的 VM 有 4 Core 16G Memory,但每台 VM 會執行兩個 Task
      • G.1X 的 VM 有 4 Core 16G RAM,每台 VM 只會執行一個 Task,所以 Task 可以有完整的 16G Memory 可以用
      • G.2X 的 VM 有 8 Core 32G RAM,每台 VM 只會執行一個 Task

其他設定可以維持在默認的狀態下即可

請持續鎖定 Nextlink 架構師專欄,以獲得最新專業資訊喔!

若您有任何 AWS 需求,歡迎與我們聯繫!