Showing 25-36 of 111 results
09/08
2021
【AWS 數據戰情室】Day 26 持續同步 S3 資料到 Redshift – Part 1
之前在 Glue 上進行資料存取時都是使用 S3 ,而今天我們要透過 Glue Job 將 S3 資料儲存到 Redshift。這次是使用 Day 17 的運算結果,每個 User 最喜歡的前五名商品清單,將它放到新的 S3 路徑下,並且將他切成三等份每一份大約 30 萬筆資料。
Read More
09/01
2021
【AWS 數據戰情室】Day 25 透過 Data Catalog 連接 Redshift
Data Catalog 不只可以使用 S3 作為資料的存取點,也可以使用既有的資料庫作為資料的存取點,今天要來介紹如何將 Redshift 作為 Data Catalog 的資料存取點,讓 ETL 工具可以直接存取資料
Read More
08/25
2021
【AWS 數據戰情室】Day 24 Redshift 教學
在介紹完 Amazon Redshift 後,我們直接來創建一個 Redshift。首先在創建 Redshift 前,需要先創建 cluster subnet group,其代表等等創建的 Redshift 要開在哪一個 VPC以及哪個 Subnet 上。
Read More
08/11
2021
【AWS 數據戰情室】Day 23 Redshift 簡介
在介紹 Data Catalog 連接 Redshift 之前,我們先介紹 Redshift 這個資料庫。Redshift 在 AWS 上的定位是 Data Warehouse 也就是資料倉儲,而 Data Warehouse 與一般的資料庫有什麼不同呢?馬上來看詳細說明。
Read More
08/04
2021
【AWS 數據戰情室】Day 22 Glue Workflows 教學 – Part 2
本篇補充創建 Glue 的自動化流程 Workflows 的小細節,上次介紹完 Workflow 的使用方式,可以正常產生出每個User購買最多的前五名商品,但如果是使用昨天的 S3 資料階層來當資料源時,Data Catalog 需要修改部分設定才能正常工作。
Read More
07/28
2021
【AWS 數據戰情室】Day 21 Glue Workflows 教學 – Part 1
講完 AWS Data Catalog 與 ETL Job 後,在整個資料處理的流程中可能會需要用自動化的方式讓整個流程可以夠便利,資料若是以天為單位的方式存入S3,則會有 Partition 更新的需求,今天就要來介紹如何創建 Glue 的自動化流程 Workflows 。
Read More
07/21
2021
【AWS 數據戰情室】Day 20 Glue ETL Job 教學-Python Shell-Part 2
Python Shell 進行 ETL 的設定完成後,可以看到一個空白的編輯器,這裡我們可以自行撰寫所需的 ETL 程式,接下來會介紹如何使用 pandas 進行 資料處理,產生出每個user 最喜歡購買的前五項商品清單。
Read More
07/07
2021
【AWS 數據戰情室】Day 19 Glue ETL Job 教學-Python Shell-Part 1
在 Glue ETL Job 中 除了 Spark 可以使用之外,還可以使用 Python Shell 進行 ETL 的處理,Python Shell 裡已經包含了 Pandas 的 Library 可以直接使用,接下來會透過 Python Shell 的方式進行分析。
Read More
06/30
2021
【AWS 數據戰情室】Day 18 Glue ETL Job 教學 – Part 5
本篇文章將延續前一篇說明,使用 Glue ETL Job 找出每個user最常購買的前五名商品,接續進行 spark SQL 程式碼 的設定,透過 spark SQL 對資料進行Group與排名。定義有哪些欄位要寫入 S3 ,並且定義該欄位的資料類型,設定完成即可得到完整程式碼。
Read More
06/23
2021
【AWS 數據戰情室】Day 17 Glue ETL Job 教學 – Part 4
創建完 ETL 的 Spark Job 後我們要加入資料處理的內容,在預設的程式碼中只能做到資料搬遷,那這次我們的目標是要找出每個 user 最常購買的前五名商品,這部分會使用 PySpark 的進行。接下來會以修改後的程式進行說明。
Read More
06/16
2021
【AWS 數據戰情室】Day 16 Glue ETL Job 教學 – Part 3
Job 的基礎設定完成後,接下來要設定資料源與輸出目標這一步驟可以選擇要處理的資料源,選擇 Glue Data Catalog 中的 Table,這邊我們選擇 order_products_prior,就可以繼續往下。
Read More
06/09
2021
【AWS 數據戰情室】Day 15 Glue ETL Job 教學 – Part 2
完成 S3 資料源的準備後,我們來看如何使用 Glue ETL Job,先來介紹 Spark 的部分。第一個設定頁面是 Job 的基本設定,跟運算有關的都在這邊進行設定。
Read More