Data lakehouse là gì?

Định nghĩa về hồ dữ liệu

Data lakehouse là kiến trúc quản lý dữ liệu thống nhất kết hợp các tính năng của data lake và data warehouse, cho phép lưu trữ và phân tích cả dữ liệu có cấu trúc và không có cấu trúc. Nó hỗ trợ thu thập dữ liệu linh hoạt, phân tích nâng cao và học máy, đồng thời đảm bảo bảo mật dữ liệu và hiệu suất được tối ưu hóa.

Nội dung chính

Tìm hiểu tổng quan về mô hình data lakehouse và lý do tại sao nó lại quan trọng trong bối cảnh dữ liệu ngày nay.
Khám phá lợi ích của một data lakehouse, bao gồm khả năng mở rộng, bảo mật nâng cao, hiệu suất tốt hơn và hỗ trợ cho phân tích dữ liệu đa dạng.
Tìm hiểu về các thành phần chính tạo nên kiến trúc data lakehouse.
Nhận hướng dẫn từng bước về những cách tốt nhất để triển khai kiến trúc data lakehouse.
Xem cách các tổ chức hàng đầu thế giới đang sử dụng kiến trúc data lakehouse để nâng cao hiệu suất.

Tổng quan về data lakehouse

Các tổ chức hiện nay đang tìm kiếm những cách sáng tạo để tận dụng dữ liệu của họ. Một trong những tiến bộ mới nhất là data lakehouse, một khung kiến trúc kết hợp liền mạch sức mạnh của data lake và data warehouse vào một nền tảng duy nhất. Mô hình này cho phép các tổ chức lưu trữ lượng lớn dữ liệu có cấu trúc, bán cấu trúc và phi cấu trúc, sau đó họ có thể sử dụng dữ liệu này để xử lý, phân tích và rút ra thông tin chi tiết mà không cần phải chuyển đổi dữ liệu sâu rộng.

Data lakehouse rất quan trọng cho các chiến lược dữ liệu hiện đại vì chúng đủ linh hoạt để hỗ trợ nhiều trường hợp sử dụng khác nhau. Chúng cho phép các nhóm dữ liệu thực hiện các truy vấn phức tạp và mô hình học máy trực tiếp bằng cách sử dụng dữ liệu thô, giúp doanh nghiệp dễ dàng rút ra thông tin và đưa ra quyết định trong môi trường ngày càng dựa vào dữ liệu. Data lakehouse cũng giúp kết nối các luồng dữ liệu của bạn dễ dàng hơn, loại bỏ các silo và thúc đẩy cộng tác lớn hơn - đồng thời vẫn duy trì các tính năng thiết yếu như quản trị dữ liệu, bảo mật và hiệu suất.

Lợi ích của data lakehouse

Khả năng mở rộng và linh hoạt trong quản lý dữ liệu

Data lakehouse có thể mở rộng liền mạch để đáp ứng khối lượng dữ liệu ngày càng tăng trên nhiều loại dữ liệu khác nhau, cung cấp cho doanh nghiệp sự linh hoạt để thích ứng với các bối cảnh dữ liệu đang thay đổi.

Microsoft OneLake trong Fabric là một data lake mở có khả năng mở rộng vô hạn, thu thập dữ liệu có cấu trúc và không có cấu trúc, cũng như xử lý lượng dữ liệu khổng lồ, đồng thời tối ưu hóa hiệu suất trên các công cụ phân tích.

Các tính năng nâng cao về quản trị và bảo mật dữ liệu

Data lakehouse tích hợp các biện pháp bảo mật mạnh mẽ để bảo vệ dữ liệu nhạy cảm. OneLake, chẳng hạn, sử dụng các công cụ bảo mật và quản trị hàng đầu trong ngành để đảm bảo chất lượng dữ liệu của tổ chức bạn, và chỉ những người phù hợp mới có quyền truy cập đúng vào dữ liệu đó. Điều này giúp tổ chức của bạn tuân thủ các quy định trong ngành và bảo vệ chống lại việc truy cập trái phép.

Tính hiệu quả về chi phí và hiệu suất

Thông qua lưu trữ đám mây tiết kiệm chi phí và xử lý dữ liệu tối ưu, data lakehouse cung cấp một giải pháp hợp lý cho việc lưu trữ và phân tích dữ liệu quy mô lớn, cả có cấu trúc và không có cấu trúc. Microsoft Fabric còn giúp giảm chi phí hơn nữa bằng cách cung cấp một nhóm nguồn lực và dung lượng lưu trữ duy nhất có thể được sử dụng cho mọi khối lượng công việc.

Hỗ trợ cho phân tích dữ liệu đa dạng và ứng dụng học máy

Bằng cách cho phép các nhà khoa học dữ liệu và nhà phân tích thực hiện phân tích thời gian thực trên dữ liệu luồng, data lakehouse cho phép các tổ chức phản ứng nhanh chóng và chủ động với các điều kiện thay đổi khi chúng xuất hiện. Các khối lượng công việc như Fabric Real-Time Intelligence có thể tiếp nhận và biến đổi dữ liệu theo thời gian thực, truy vấn ngay lập tức, và kích hoạt hành động phản hồi.

Kiến trúc data lakehouse

Kiến trúc data lakehouse bao gồm một số thành phần chính hoạt động cùng nhau để tạo ra một hệ thống hợp nhất nhằm quản lý và phân tích dữ liệu. Dưới đây là phân tích chi tiết về từng thành phần:

1. Chuyển tải. Tầng chuyển tải có trách nhiệm thu thập dữ liệu từ nhiều nguồn khác nhau, bao gồm cơ sở dữ liệu, ứng dụng, thiết bị IoT và API bên ngoài, theo cả theo lô và theo thời gian thực. Fabric Data Factory cho phép bạn triển khai luồng dữ liệu và đường ống để thu thập, chuẩn bị và chuyển đổi dữ liệu trên nhiều nguồn khác nhau. Tầng này đảm bảo rằng tất cả dữ liệu có liên quan—có cấu trúc, bán cấu trúc và không có cấu trúc—đều có sẵn để phân tích, cung cấp cái nhìn toàn diện về bối cảnh của tổ chức.

2. Lưu trữ. Tầng lưu trữ đóng vai trò là nền tảng của data lakehouse, xử lý khối lượng lớn dữ liệu thô bằng các giải pháp lưu trữ có thể mở rộng và tiết kiệm chi phí. Tầng này cho phép lưu trữ dữ liệu ở định dạng thô, hỗ trợ nhiều loại dữ liệu khác nhau, chẳng hạn như văn bản, hình ảnh và video, đồng thời loại bỏ nhu cầu sử dụng lược đồ cứng nhắc để dữ liệu có thể mở rộng hơn.

3. Siêu dữ liệu. Tầng siêu dữ liệu lập danh mục các tài sản dữ liệu và duy trì thông tin lược đồ, đảm bảo chất lượng dữ liệu cho việc truy vấn hiệu quả. Các nhóm dữ liệu có thể hiểu bối cảnh và cấu trúc của dữ liệu mà họ đang làm việc, dẫn đến những thông tin hiệu quả hơn.

4. API. Tầng API cung cấp giao diện mà các nhà phát triển, nhà khoa học dữ liệu và nhà phân tích sử dụng để truy cập và tương tác với dữ liệu. Tầng này rất quan trọng vì nó cho phép các ứng dụng và người dùng khác nhau làm việc với dữ liệu mà không cần kiến thức kỹ thuật sâu về kiến trúc cơ sở.

5. Tiêu thụ. Tầng tiêu thụ bao gồm các công cụ và nền tảng cho phép mỗi người dùng phân tích và trực quan hóa dữ liệu. Điều này bao gồm các công cụ nghiệp vụ thông minh (BI) như Power BI, cũng như khối lượng công việc khoa học dữ liệu và học máy nhưFabric Data Science, sử dụng dữ liệu được lưu trữ trong lakehouse. Tầng tiêu thụ biến dữ liệu thô thành những thông tin có thể hành động, trao quyền cho các bên liên quan trên toàn tổ chức đưa ra quyết định dựa trên dữ liệu.

Triển khai data lakehouse

Dù bạn đang di chuyển dữ liệu hay thiết lập một giải pháp hoàn toàn mới, việc triển khai một data lakehouse bao gồm một số bước quan trọng. Sau đây là tổng quan từng bước về quy trình, bao gồm những cân nhắc chính:

1. Đánh giá bối cảnh. Đầu tiên, bạn sẽ muốn xác định tất cả các nguồn dữ liệu hiện có của mình, bao gồm cơ sở dữ liệu, ứng dụng và nguồn bên ngoài. Để hiểu yêu cầu lưu trữ, bạn sẽ muốn phân loại dữ liệu trong các nguồn đó là có cấu trúc, bán cấu trúc hoặc không có cấu trúc.

2. Xác định yêu cầu và mục tiêu. Tiếp theo, điều quan trọng là bạn phải phác thảo rõ ràng mục tiêu của mình, điều này sẽ giúp bạn xác định nhu cầu dựa trên khối lượng dữ liệu và tốc độ tăng trưởng dự kiến. Để bảo vệ dữ liệu nhạy cảm của bạn, bạn cũng sẽ muốn xác định các yêu cầu tuân thủ mà bạn cần phải đáp ứng.

3. Chọn ngăn xếp công nghệ. Chọn một giải pháp lưu trữ đám mây hoặc tại chỗ hỗ trợ nhu cầu của bạn về data lakehouse, sau đó đánh giá các tùy chọn cho xử lý và phân tích dữ liệu. Bạn cũng sẽ muốn chọn các công cụ mà bạn sẽ sử dụng để lập danh mục, quản trị và theo dõi luồng xử lý.

4. Phát triển chiến lược di chuyển. Để giảm thiểu gián đoạn khi phát triển chiến lược di chuyển, bạn nên lên kế hoạch cho một quá trình di chuyển từng bước, bắt đầu với dữ liệu ít quan trọng hơn. Bạn nên đánh giá chất lượng dữ liệu, xác định các nhiệm vụ làm sạch hoặc chuyển đổi cần thiết, và thiết lập các chiến lược sao lưu để đảm bảo tính toàn vẹn của dữ liệu.

5. Tạo quy trình. Khi bạn đã thiết lập chiến lược di chuyển, đã đến lúc thiết lập các quy trình cho việc thu thập dữ liệu theo lô và theo thời gian thực bằng cách sử dụng API. Để hợp lí hoá hơn nữa quá trình chuyển tải dữ liệu, bạn cũng có thể cân nhắc triển khai các công cụ tự động hóa, như Microsoft Power Automate, để giảm bớt sự can thiệp thủ công.

6. Cấu hình quản lý lưu trữ. Khi cấu hình hệ thống lưu trữ, bạn nên thực hiện theo cấu trúc đã định nghĩa cho từng loại dữ liệu. Bạn sẽ cần thiết lập các hoạt động quản lý siêu dữ liệu để đảm bảo khả năng khám phá dữ liệu và bạn cũng cần xác định quyền truy cập và giao thức bảo mật để bảo vệ dữ liệu.

7. Thiết lập khung phân tích. Tại thời điểm này, bạn sẽ muốn kết nối BI và các công cụ phân tích, như Power BI, để báo cáo và trực quan hóa. Bạn cũng cần cung cấp cho các nhà phát triển các khuôn khổ, công cụ và điểm truy cập cần thiết cho máy học và phân tích nâng cao.

8. Giám sát, tối ưu hóa và lặp lại. Khi hoàn tất quá trình triển khai, bạn sẽ muốn đánh giá hiệu suất thường xuyên, đánh giá khả năng lưu trữ và xử lý bằng chức năng giám sát đầu cuối như trong Fabric. Bạn cũng nên thiết lập một cơ chế phản hồi với người dùng để xác định các lĩnh vực cần cải thiện và tối ưu hóa.

Ví dụ về data lakehouse

Các tổ chức hàng đầu thế giới đang sử dụng kiến trúc data lakehouse để tối ưu hóa việc sử dụng dữ liệu, thúc đẩy quá trình ra quyết định và thúc đẩy đổi mới trong toàn bộ hoạt động. Sau đây là một số ví dụ đáng chú ý về việc triển khai thành công:

1. Một nguồn đáng tin cậy duy nhất
Công ty chuỗi cung ứng thực phẩm có trụ sở tại Hà Lan Flora Food Group đã tìm cách hợp nhất nhiều công cụ phân tích thành một nền tảng hiệu quả hơn, vì vậy họ đã tìm đến Fabric để thống nhất báo cáo, kỹ thuật dữ liệu, khoa học dữ liệu, và các kênh bảo mật thành một giải pháp. Bằng cách kết nối tất cả các luồng dữ liệu của mình, công ty đã có thể đơn giản hóa kiến trúc nền tảng, giảm chi phí và cung cấp thông tin chuyên sâu và kịp thời hơn cho khách hàng, từ đó nâng cao chất lượng dịch vụ và sự hài lòng của khách hàng.

2. Phân tích nâng cao và học máy
Sân bay Melbourne, sân bay bận rộn thứ hai ở Úc, cần nâng cấp khả năng phân tích dữ liệu của mình để cải thiện hiệu quả hoạt động và trải nghiệm hành khách. Bằng cách áp dụng Fabric, tổ chức có thể hợp nhất dữ liệu từ nhiều nguồn dữ liệu của Avast, bao gồm hệ thống đỗ xe, bán hàng và vận hành sân bay, cũng như mở rộng quyền truy cập vào thông tin chi tiết dựa trên dữ liệu cho cả người dùng doanh nghiệp chuyên môn kỹ thuật và không chuyên môn. Kết quả là, sân bay đã đạt được hiệu quả hoạt động tăng 30% trên tất cả các hoạt động liên quan đến dữ liệu.

3. AI và học sâu
Công ty đổi mới kỹ thuật số Avanade đặt mục tiêu nâng cao quy trình ra quyết định chiến lược trong tổ chức của mình bằng công nghệ AI. Bằng cách thống nhất tài sản dữ liệu của họ với Fabric, và đào tạo hơn 10.000 nhân viên về phân tích dữ liệu, Avanade đã đặt nền tảng cho người dùng dễ dàng áp dụng AI hơn. Người dùng có thể sử dụng các kỹ năng đã học để phát triển các giải pháp AI tùy chỉnh, bao gồm các bảng thông tin khác nhau được xây dựng trên ngôn ngữ tự nhiên và Copilot trong Power BI.

4. Thông tin chuyên sâu theo thời gian thực
Dener Motorsport, đơn vị tổ chức chính của Porsche Carrera Cup Brasil, được giao nhiệm vụ cung cấp dữ liệu toàn diện và cập nhật về hiệu suất và dịch vụ sửa chữa xe cho cả kỹ sư và khách hàng. Bằng cách áp dụng Fabric và triển khai các tính năng phân tích theo thời gian thực, lưu trữ và báo cáo, tổ chức đã có thể hỗ trợ tốt hơn cho các bên liên quan với những hiểu biết có thể hành động theo thời gian thực. Tại một cuộc đua gần đây, các kỹ sư thậm chí đã có thể xác định một động cơ đang gặp sự cố trong một chiếc xe đua Porsche, khiến họ phải rút xe để đảm bảo an toàn.

Kết luận

Bối cảnh phát triển của phân tích dữ liệu

Được thúc đẩy bởi sự tăng trưởng theo cấp số nhân của dữ liệu, cũng như nhu cầu ngày càng tăng về thông tin chi tiết theo thời gian thực, ngày càng nhiều tổ chức đang chuyển đổi từ data warehouse truyền thống sang các giải pháp linh hoạt hơn.

Bằng cách tạo điều kiện tăng cường tính linh hoạt, khả năng mở rộng, hiệu quả hoạt động và sự cộng tác giữa các nhóm dữ liệu, data lakehouse cho phép các doanh nghiệp khai thác hết tiềm năng của dữ liệu. Bằng cách phá vỡ các silo và cung cấp quyền truy cập dễ dàng vào các loại dữ liệu đa dạng, các data lakehouse mang lại cho các tổ chức khả năng đổi mới và phản ứng nhanh chóng với những thay đổi của thị trường—khiến chúng trở thành điều thiết yếu cho quản lý dữ liệu hiện đại.

Bắt đầu dùng thử Fabric miễn phí

Trao quyền cho tổ chức của bạn với Microsoft Fabric – nền tảng quản lý dữ liệu và phân tích hợp nhất, thúc đẩy đổi mới và chuyển đổi trong kỷ nguyên AI.

Việc bắt đầu thật đơn giản và dễ dàng. Bạn không cần tài khoản Azure mà có thể đăng ký trực tiếp trên nền tảng Fabric.

Tìm hiểu thêm

Tài nguyên

Các tài nguyên khác

Khám phá các công cụ, tài nguyên và phương pháp tốt nhất được thiết kế để giúp data lakehouse của bạn phát triển mạnh mẽ.

Một người đàn ông có râu và đeo kính với hai tay giơ lên.

Tài nguyên

Giới thiệu có hướng dẫn về Microsoft Fabric

Khám phá cách Fabric giúp hợp nhất toàn bộ dữ liệu của bạn và chạy phân tích thời gian thực trên một nền tảng duy nhất.

Tìm hiểu thêm

Một người đàn ông và một người phụ nữ đang đứng trước một màn hình lớn.

Đối tác

Đối tác của Microsoft Fabric

Đưa dữ liệu của bạn vào kỷ nguyên AI với sự trợ giúp từ chuyên gia của các đối tác Fabric uy tín.

Tìm hiểu thêm

Cận cảnh khuôn mặt của một người phụ nữ với mái tóc xoăn đỏ.

Hội thảo trực tuyến

Chuỗi hội thảo trực tuyến: Giới thiệu Microsoft Fabric

Xem chuỗi video này để tìm hiểu về những trải nghiệm và lợi ích chính của Microsoft Fabric, một giải pháp phân tích toàn diện.

Tìm hiểu thêm

Không giống như các data warehouse truyền thống, chủ yếu xử lý dữ liệu có cấu trúc theo cách có tổ chức chặt chẽ, data lakehouse cho phép thu thập và xử lý dữ liệu linh hoạt hơn bằng cách chứa dữ liệu có cấu trúc, bán cấu trúc và không có cấu trúc từ nhiều nguồn khác nhau.
Dữ liệu trong data lakehouse có thể được nhiều bên liên quan trong tổ chức, bao gồm nhà phân tích dữ liệu, nhà khoa học dữ liệu, chuyên gia nghiệp vụ thông minh và người ra quyết định, sử dụng để thu thập thông tin chi tiết, đưa ra quyết định sáng suốt và thúc đẩy giá trị kinh doanh.
Data hub là một kho lưu trữ trung tâm tập hợp dữ liệu từ nhiều nguồn khác nhau để báo cáo và mục đích nghiệp vụ thông minh. Data lakehouse là nền tảng toàn diện hơn lưu trữ dữ liệu có cấu trúc, bán cấu trúc và không cấu trúc để hỗ trợ thông tin chi tiết theo thời gian thực, máy học và các hình thức phân tích nâng cao khác.
Dữ liệu thô trong data lakehouse thường được lưu trữ ở định dạng gốc, không có bất kỳ sửa đổi hoặc chuyển đổi nào, trong hệ thống tệp phân tán như Apache Hadoop. Điều này mang lại tính linh hoạt và khả năng mở rộng cao hơn khi làm việc với khối lượng lớn dữ liệu đa dạng.

Định nghĩa về hồ dữ liệu

Nội dung chính

Tổng quan về data lakehouse

Lợi ích của data lakehouse

Khả năng mở rộng và linh hoạt trong quản lý dữ liệu

Các tính năng nâng cao về quản trị và bảo mật dữ liệu

Tính hiệu quả về chi phí và hiệu suất

Hỗ trợ cho phân tích dữ liệu đa dạng và ứng dụng học máy

Kiến trúc data lakehouse

Triển khai data lakehouse

Ví dụ về data lakehouse

Kết luận

Bối cảnh phát triển của phân tích dữ liệu

Bắt đầu dùng thử Fabric miễn phí

Các tài nguyên khác

Giới thiệu có hướng dẫn về Microsoft Fabric

Đối tác của Microsoft Fabric

Chuỗi hội thảo trực tuyến: Giới thiệu Microsoft Fabric

Câu hỏi thường gặp

Theo dõi Microsoft Fabric