之前在Glue 上進行資料存取時都是使用 S3,而今天我們要透過 Glue Job 將 S3 資料儲存到 Redshift。
1.首先我們先準備資料,這次我是使用 Day 17 的運算結果,每個 User 最喜歡的前五名商品清單,我將它放到新的 S3 路徑下,並且將他切成三等份每一份大約 30 萬筆資料,因為這次要模擬每天都有新的資料新增到 s3 並且要同步到 Redshift,所以第一天的資料路徑為 s3://it.sample.s3/toRedshiftFile/20201001/top5-1.csv
2.創建新的 Crawler(top5-crawler),詳細創建方法可以參考 Day 7,這裡會列出不同需要調整的步驟, Crawler 第三步驟的 Include path 需要修改為 s3://it.sample.s3/toRedshiftFile
3. 創建新的 ETL Job(it-to-redshift),詳細流程可以參考 Day 15,這裡也會列出不同且需要調整的步驟
*第一步驟的 Adavanced properties 中的 Job bookmark 需要調整為 Enable
4.Data Source 的部分要選擇今天 Crawler 所創建的 Table
5.Data target 要選擇 Day 25 所創建的 Redshift 連接
6.之後就可以直接創建 Script,在 Script 中我會修改倒數第二行的 Redshift Table Name 為 top5
請持續鎖定 Nextlink 架構師專欄,以獲得最新專業資訊喔!
若您有任何 AWS 需求,歡迎與我們聯繫!