什麼是資料湖存放庫？

資料湖存放庫的定義

資料湖存放庫是一種統一的資料管理結構，結合了資料湖和資料倉儲的特性，允許兼而存儲和分析結構化和非結構化資料。它支持靈活的資料擷取、進階分析和機器學習，同時確保資料安全和優化效能。

主要重點

獲取資料湖存放庫模型的概述，以及它在當今資料驅動環境中的重要性。
探索資料湖存放庫的好處，包括可擴展性、增強的安全性、更優效能以及對多樣化資料分析的支援。
了解構成資料湖存放庫結構的關鍵組件。
獲取有關最佳實施資料湖存放庫結構的逐步指導。
查看全球頂尖組織如何利用資料湖存放庫結構提升效能。

資料湖存放庫概述

當今資料驅動的組織不斷尋求創新的方法來利用其資料。最新的進展之一是資料湖存放庫，這是一種架構框架，將資料湖和資料倉儲的優勢無縫融合於一個平台。這種模型允許組織存儲大量的結構化、半結構化和非結構化資料，然後將其用來處理、分析和獲取深入解析，而無需進行大量的資料轉換。

資料湖存放庫對現代資料策略至關重要，因為它們足以靈活支持各種用例。它們使資料團隊能夠直接使用原始資料運行複雜的查詢和機器學習模型，讓企業更容易獲取深入解析並在日益受資料驅使的環境中推動決策。資料湖存放庫還使連結資料流變得更容易，消除孤島並促進更大的協作，同時保持資料治理、安全性和效能等基本特徵。

資料湖存放庫的優勢

資料管理的可擴縮性與靈活性

資料湖存放庫可以無縫擴縮，以適應各種資料類型的增長資料量，為企業提供適應不斷變化的資料環境的靈活性。

Microsoft OneLake in Fabric是一個開放的資料湖，能夠無限擴縮，接收結構化和非結構化資料，並處理大量資料，同時優化各種分析引擎的效能。

增強的資料治理與安全性功能

資料湖存放庫整合了強大的安全措施，以保護敏感資料。例如，OneLake 使用行業領先的安全和治理工具，以確保您組織資料的質量，並確保只有適當人員擁有正確的資料訪問權限。這有助於您的組織遵守產業法規，並防止未經授權的存取。

成本效益與效能效率

通過具成本效益的雲端儲存空間和優化的資料處理，資料湖存放庫為存儲和分析大規模資料（包括結構化和非結構化資料）提供了一個經濟實惠的解決方案。 Microsoft Fabric進一步降低成本，提供一個可用於所有工作負載的單一容量和存儲池。

支持多樣化的資料分析和機器學習應用

通過讓資料科學家和分析師能夠對串流資料進行實時分析，資料湖存放庫使各類組織能夠快速和主動地應對不斷變化的條件。像 Fabric 即時智慧這樣的工作負載可以接收和轉換串流資料，即時查詢，並根據回應觸發行動。

資資料湖存放庫結構

結構由幾個關鍵組件組成，這些組件共同作用，創建一個統一的系統來管理和分析資料。以下是每個組件的詳細說明：

1. 攝取。攝取層負責從各種來源收集資料，包括資料庫、應用程序、物聯網設備和外部 API，無論批次還是即時。Fabric 資料處理站允許您實施資料流和管道，以便從多種來源接收、準備和轉換資料。這一層確保所有相關資訊都可用於分析，無論結構化、半結構化和非結構化，提供組織全景的綜合檢視表。

2. 儲存體。儲存體作為資料湖存放庫的基礎，處理大量的原始資料，使用可擴展且具成本效益的存儲解決方案。這一層允許資料以原始格式存儲，適應各種資料類型，如文本、圖像和視頻，同時消除對僵化架構的需求，使資料更具可調整性。

3. 中繼資料。中繼資料層對資料資產進行編目並維護架構信息，確保資料質量以便高效查詢。資料團隊可以理解他們所處理資料的上下文和結構，從而獲得更有效的深入解析。

4. API. API 層提供開發人員、資料科學家和分析師用來存取和互動資料的介面。這一層至關重要，因為它允許不同的應用程式和用戶在無需深入了解底層結構的情況下使用資料。

5. 使用量。使用量層涵蓋了使每個用戶能夠分析和視覺化資料的工具和平台。這包括商業智慧 (BI) 工具，如Power BI，以及資料科學和機器學習工作負載，如 Fabric 資料科學，這些工作負載使用存儲在湖存放庫中的資料。使用量層將原始資料轉化為可行的深入解析，賦能整個組織的利益相關者做出資料驅動的決策。

實施資料湖存放庫

無論您是遷移資料還是設置全新的解決方案，實施資料湖存放庫涉及幾個關鍵步驟。以下是該過程的逐步概述，包括關鍵考量：

1. 評定現狀。首先，您需要識別所有現有的資料來源，包括資料庫、應用程序和外部資料源。為了理解儲存體需求，您需要將這些來源中的資料分類為結構化、半結構化或非結構化。

2. 定義需求和目標。接下來，明確列出您的目標至關重要，這將幫助您根據預期的資料量和增長來確定需求。為了保護您的敏感性資料，您還需要識別需要遵守的合規性要求。

3. 選擇技術堆疊。選擇一個支持您的資料湖存放庫需求的雲端或本地存儲解決方案，然後評估資料處理和分析的選項。您還需要選擇用於目錄管理、治理和資料譜系追蹤的工具。

4. 開發移轉策略。為了在制定移轉策略時最小化干擾，您需要計劃分階段的移轉，從不太關鍵的資料開始。您應該評估資料品質，識別必要的清理或轉換任務，並建立備份策略以確保資料完整性。

5. 建立管道。一旦您建立了移轉策略，就該設置使用API的批量和即時資料攝取來源的流程。為了進一步簡化資料擷取，您可能還想考慮實施自動化工具，如Microsoft Power Automate，以減少人工干預。

6. 配置儲存體管理。在配置儲存體系統時，您需要根據每種資料類型的定義結構進行配置。您需要建立元資料管理實踐，以確保資料可發現性，並且還需要定義存取權限和安全性協議以保護資料。

7. 建立分析框架。在這個階段，您將希望連結您的BI和分析工具，如Power BI，以進行報告和視覺效果化。您還需要為開發人員提供必要的框架、工具和機會，以便進行機器學習和進階分析。

8. 監控、優化和迭代。在實施完成後，您需要定期評估效能，使用像Fabric這樣的端到端監控功能評估存儲和處理能力。您還需要與使用者建立意見反應機制，以識別改進和最佳化的領域。

資料湖存放庫的範例

全球頂尖組織正在使用資料湖存放庫結構來優化資料使用、提升決策能力並推動業務創新。以下是一些成功實施的顯著例子：

1. 單一的真實來源
位於荷蘭的食品供應鏈公司Flora Food Group希望將多個分析工具整合到一個更高效的平台中，因此他們尋求使用Fabric將報告、資料工程、資料科學和安全性通道統一為一個解決方案。通過連接所有資料流，該公司能夠簡化其平台結構，降低成本，並為客戶提供更詳細和及時的深入解析，從而提升服務交付和客戶滿意度。

2. 進階分析與機器學習
墨爾本機場，澳大利亞第二繁忙的機場，需要升級其資料分析能力，以改善運營效率和乘客體驗。通過採用Fabric，該組織得以整合來自各種資料來源的資料，包括停車、銷售和機場運營系統，並擴大對資料驅動深入解析的存取，無論是對技術還是非技術的商業用戶。因此，該機場在所有資料相關操作中獲得了30%的效能提升。

3. 人工智慧與深度學習
數位創新公司Avanade旨在利用AI技術增強其組織內的戰略決策過程。通過使用Fabric統一其資料資產，並對超過10,000名員工進行資料分析訓練，Avanade為用戶更輕鬆地採用AI奠定了基礎。用戶能夠利用所學的技能開發定制的AI解決方案，包括基於自然語言和Power BI中的Copilot構建的不同儀表板。

4. 即時深入解析
Dener Motorsport，保時捷巴西卡雷拉杯的主要組織者，負責向工程師和顧客提供有關汽車性能和維修的全面、最新資料。通過採用Fabric並實施其實時分析、存儲和報告功能，該組織能夠更好地支持利益相關者，提供可行的實時深入解析。在最近的一場比賽中，工程師甚至能夠識別出一輛保時捷賽車的故障引擎，促使他們為了安全考量而將該車撤出。

結論

不斷演變的資料分析領域

隨著資料的指數增長以及對即時深入解析需求的增加，越來越多的組織正在從傳統資料倉儲轉向更靈活的解決方案。

通過促進更大的敏捷性、可擴縮性、運營效率和資料團隊之間的共同作業，資料湖存放庫使企業能夠實現其資料的全部潛力。通過打破孤島並提供對多樣資料類型的更易存取，資料湖存放庫讓組織能夠創新並迅速應對市場變化，這使其成為現代資料管理的必需品。

開始 Fabric 免費試用

以統一的資料管理與分析平台 Microsoft Fabric 協助貴組織成長，驅動 AI 時代的轉型與創新。

開始使用簡單直接。無需 Azure 帳戶，在 Fabric 平台上可直接註冊。

深入了解

資源

其他資源

探索旨在協助貴組織成功的工具、資源和最佳做法。

資源

Microsoft Fabric導覽

了解如何使用Fabric統一您的所有資料，並在單一平台上執行即時分析。

深入了解

合作夥伴

Microsoft Fabric 合作夥伴

在合格 Fabric 合作夥伴的專家協助下，將您的資料帶入 AI 時代。

深入了解

網路研討會

網路研討會系列：Microsoft Fabric簡介

觀看此系列以了解Microsoft Fabric的關鍵體驗和好處，這是一個端到端的分析解決方案。

深入了解

與傳統資料倉儲主要以高度組織的方式處理結構化資料不同，湖存放庫允許更靈活的資料接收和處理，能夠從各種來源接收結構化、半結構化和非結構化資料。
湖存放庫中的資料可以被組織內的各種利益相關者使用，包括資料分析師、資料科學家、商業智慧專業人員和決策者，以獲取深入解析、做出明智的決策並推動商業價值。
資料中心是一個中央存儲庫，將來自各種來源的資料匯集在一起，用於報告和商業智慧目的。湖存放庫是一個更全面的平台，存儲結構化、半結構化和非結構化資料，以支援即時深入解析、機器學習和其他形式的進階分析。
湖存放庫中的原始資料通常以其原生格式存儲，沒有任何修改或轉換，存儲在像Apache Hadoop這樣的分佈式文件系統中。這使得在處理大量多樣資料時具有更大的靈活性和可擴展性。

什麼是資料湖存放庫？

資料湖存放庫的定義

主要重點

資料湖存放庫概述

資料湖存放庫的優勢

資料管理的可擴縮性與靈活性

增強的資料治理與安全性功能

成本效益與效能效率

支持多樣化的資料分析和機器學習應用

資資料湖存放庫結構

實施資料湖存放庫

資料湖存放庫的範例

結論

不斷演變的資料分析領域

開始 Fabric 免費試用

其他資源

Microsoft Fabric導覽

Microsoft Fabric 合作夥伴

網路研討會系列：Microsoft Fabric簡介

常見問題集

追蹤 Microsoft Fabric