首頁 » 架構師專欄 » 【AWS 數據戰情室】Day 17 Glue ETL Job 教學 – Part 4

06/23 2021

【AWS 數據戰情室】Day 17 Glue ETL Job 教學 – Part 4

創建完 ETL 的 Spark Job 後我們要加入資料處理的內容，在預設的程式碼中只能做到資料搬遷，那這次我們的目標是要找出每個 user 最常購買的前五名商品，這部分會使用 PySpark 的進行

接下來會以修改後的程式進行說明，以下是每個 user 購買數量前五名商品的 PySpark 程式碼

這邊我們在多加兩個資料源因為我們需要 order_products_prior、order 與 products 這三張表一起 Join 的資料，程式部分可以複製第一個資料源的程式碼，並修改後面的 database、table_name、transformation_ctx 參數

Join 的 Function 可以從右上角的 Transform 直接匯入，Transform 有提供常見的 Function 可以使用，除了 Join 還有 Filter、SplitFields、DropNullFields 等等的 Function 可以使用
需要注意的是 Transform 的 Function 要在 DynamicFrame 的格式下使用，如果已經像 join_products 一樣，已經透過最後面的 .toDF() 將 DynamicFrame 轉為 DataFrame，這個狀況下就無法再接著使用 Transform 的 Function
Join 的 Function 中 frame1、frame2 代表著要 Join 的兩張 Table，key1 代表 frame1 要用來 Join 的欄位，key2 也是同理

請持續鎖定 Nextlink 架構師專欄，以獲得最新專業資訊喔!

若您有任何 AWS 需求，歡迎與我們聯繫!

聯絡我們

01/06 2023

2022世界盃足球賽正式落幕，今年由阿根廷拿下冠軍。而在比賽過程當中，球員的一舉一動，也能夠透過AWS大數據與機器學習的服務，分析足球員的每個步伐與對戰過程，讓教練能夠從數據分析的結過替球隊做最好的安排。本篇的架構師專欄，將帶您看如何用AWS雲端服務分析世足賽事!

10/06 2021

在資料源設定完成後，接下來介紹如何繪製圖表，以資料源是每個 User 購買數量為例，來建立圖表看哪些商品的購買量最多。從建立 QuickSight 的 Filter及自建欄位，自訂自己的運算式，創建符合自己需求的圖表。

09/29 2021

QuickSight 是 AWS 的 BI工具，在設定完相關的環境參數後，可以開始設定 Redshift 的連接。一樣先到 QuickSight 的主頁，點選 New analysis，繼續進行QuickSight連接 Redshift的設定。

09/22 2021

QuickSight 是 AWS 的 BI工具，QuickSight 可以非常方便且簡單的串接 AWS 的資料庫或 S3，在 QuickSight 中可以 Join 多張 Table 或是多個資料源並進行視覺化分析產出視覺化的圖表，透過 UI 的方式可以更快速的進行分析。

09/15 2021

透過 Glue Job 將 S3 資料儲存到 Redshift之後，接下來我們要來測試是否可以每天進行 Redshift 的資料更新，並且不會產生重複的資料，修改完 ETL Job 的 Script 後就可以直接執行此 Job。

相關文章