06/29 2024

Data Mesh 是什麼?企業選擇合適資料架構有撇步!

博弘雲端_資料網格_Data Mesh

6月份的台灣,迎來全球最大的AI盛會,除了NVIDIA的CEO黃仁勳(Jensen Huang)在台北電腦展前的演講引爆人潮外,更將台灣定義為「AI」的起點,可以預見未來AI在經濟發展,抑或企業的成長扮演重要的角色。

然而在AI的背後的技術,博弘雲端曾經解析過機器學習與深度學習的差異,今天將針對數據資料的架構,解析什麼叫做Data Mesh-資料網格,以及與資料湖的差異在哪裡?讓企業能夠靠這篇的指引,選擇合適的資料管理模式,建構專屬於自己的數據資料結構!

Data Mesh 是什麼?

Data Mesh又稱作為資料網格,是一種分散式的數據架構方法,主要目標是在解決傳統數據平台面臨的可擴展性和靈活性問題。Data Mesh 強調藉由將數據管理責任分散到各個跨團隊的業務領域,來實現大規模數據運營效率。Data Mesh有三個核心概念和原則:

領域驅動設計(Domain-Oriented Design)

Data Mesh將數據管理責任分配給各個不同職能的業務領域(domain),這些領域負責自己的資料集和數據產品。如此一來,每個領域的數據專家能夠更好地理解和管理他們的數據,並確保數據的品質和一致性。

數據作為產品(Data as a Product)

在Data Mesh中,每個數據集都被視為產品,需要遵循產品管理的最佳實踐。這就表示,數據集應該有明確的擁有者、定義、文檔和服務級別協議(SLAs),以確保其品質、可用性和可發現性。

自助數據平台(Self-Serve Data Platform)

Data Mesh強調構建一個自助式的數據基礎設施,使各領域的數據工程師和數據科學家能夠輕鬆地生成和消費數據。這需要一套共享的工具和服務,以支持數據管道、自動化和治理,從而減少各領域在技術細節上的負擔。 

從上面的資料可以清楚了解到,資料網格(Data Mesh)的主要目的是將數據自主權轉移到每個專業領域的負責人身上,並且將其視為產品進行維護。然而跟我們平常所認知的資料湖(Data Lake)的差異在哪裡呢?

Data Mesh 資料網格
資料網格是一種分散式的數據架構方法,協助企業實現數據營運效率的資料管理作法。

Data Mesh 與 Data Lake 的差異在哪裡?

介紹完了資料網格(Data Mesh),不禁也使人好奇,究竟資料網格與我們所熟知的資料湖(Data Lake) 差別在哪裡?簡單來說,資料網格是分散式的數據平台,但是資料湖則是集中式的管理平台。除此之外,還有以下幾個差異:

架構和管理

資料湖的數據都集中在一個大池中,通常會在雲端或地端的環境中集中管理,並且交由專門的數據工程團隊管理。但是資料網格如同先前提到的是「分散式的管理與儲存」,交由每個領域各自管理自己的數據產品。

數據處理和使用

資料湖的數據處理方式是在集中式的空間內內進行清理、轉換和分析(ETL),且數據消費者需要從資料湖中提取數據,進行分析和機器學習等應用;但是在資料網格內,企業內部各自的部門可以直接使用各領域提供的數據產品,減少數據提取和處理的工作量。

所以從架構管理與數據處理和使用的角度來看,資料網格和資料湖代表了兩種不同的數據管理方法,前者集中式存儲和管理數據,適合於需要統一存儲和集中處理的大型數據集;後者則分散數據管理責任,適合於需要靈活應對和快速響應的業務環境。但也令人好奇,究竟該選擇哪一種資料管理的方法,來提升企業管理這些數據的彈性,發揮其最大的效益?

藉由架構和管理的方式,以及數據處理與使用,初步判別資料湖與資料網格的差異。

企業如何選擇合適的資料架構?

選擇適合的數據架構對企業實現其商業目標至關重要,從平常的業務當中可以觀察到,企業在挑選數據架構時應該要考慮下面六個關鍵:

評估業務需求和目標

首先,企業在經營數據時,需要有明確的業務需求和長期目標,舉例來說,企業是否需要處理大規模的數據集?是否需要快速應對瞬息萬變的市場?了解這些需求有助於確定數據架構應具備的核心能力。

分析現有數據管理挑戰

針對現有的數據管理系統進行全面分析,找出在架構設計與管理上的瓶頸和痛點。通常企業若採用集中式數據管理,可能會有資料處理延遲與資料質量不一致等相關問題。點出這些挑戰可以讓企業選擇適合的數據架構。

考慮數據治理和合規要求

不同的數據架構在數據治理和合規方面的特點各不相同,企業需要考慮自身在數據隱私、合規性和安全性方面的需求。其中,資料網格強調聯邦式數據治理,適合需要靈活資料治理策略的企業;而資料湖則比較適合需要嚴格控管資料合規性的企業。

評估組織結構和技術能力

企業的組織結構和技術能力也是選擇數據架構的重要考量,假設企業擁有多個業務部門且每個部門都有專屬的數據需求,資料網格的模式可能更適合,因為它強調領域驅動設計和自助數據平台;但如果企業想要集中管理數據和技術資源的話,資料湖可能會更合適。

考慮數據使用和處理需求

考慮到數據使用的頻率、範圍和處理需求,才能真正挑選合適的資料架構,而這也是與企業商業目標吻合的重要關鍵。企業若有需要頻繁地從大量的數據中提取洞察並進行即時分析,資料湖的集中存儲和處理能力可能更具優勢;倘若企業需要不同部門靈活快速地使用數據,資料網格的分散管理模式更能滿足需求。

總而言之,合適的資料架構應該要基於企業的基本業務需求、現有挑戰、資料治理和合規要求、組織結構和技術能力與數據使用和處理需求,才能從資料中找到具有價值的洞察。博弘雲端的專業數據分析核心團隊,以及雲端架構建置技術,替您評估最合適的資料架構,為您部署符合企業商業效益的資料架構,一次搞定各類型數據分析建置的大小事!