O que é um Data Lakehouse?

Definição de data lakehouse

Um data lakehouse é uma arquitetura de gestão de dados unificada que combina as caraterísticas de um data lake e de um Armazém de dados, permitindo o armazenamento e a análise de dados estruturados e não estruturados. Suporta a ingestão flexível de dados, a análise avançada e a aprendizagem automática, garantindo simultaneamente a segurança dos dados e um desempenho otimizado.

Principais conclusões

Obtenha uma visão geral do modelo de data lakehouse e por que razão é importante no atual cenário orientado para os dados.
Explore as vantagens de um data lakehouse, incluindo escalabilidade, segurança reforçada, melhor desempenho e suporte para diversas análises de dados.
Saiba mais sobre os principais componentes que constituem a arquitetura do data lakehouse.
Obtenha orientações passo a passo sobre as melhores formas de implementar uma arquitetura de data lakehouse.
Veja como as principais organizações do mundo estão a utilizar a arquitetura de data lakehouse para aumentar o desempenho.

Visão geral do data lakehouse

As organizações atuais, orientadas para os dados, procuram constantemente formas inovadoras de pôr os seus dados a trabalhar. Entre os últimos avanços está o data lakehouse, uma estrutura arquitetónica que funde perfeitamente os pontos fortes dos data lakes e dos data warehouses numa única plataforma. Este modelo permite às organizações armazenar grandes quantidades de dados estruturados, semi-estruturados e não estruturados, que podem depois utilizar para processar, analisar e obter informações sem a necessidade de uma transformação extensiva dos dados.

Os data lakehouses são cruciais para as estratégias de dados modernas porque são suficientemente flexíveis para suportar uma vasta gama de casos de utilização. Dão às equipas de dados a capacidade de executar consultas complexas e modelos de aprendizagem automática diretamente a partir de dados em bruto, facilitando às empresas a obtenção de informações e a tomada de decisões num ambiente cada vez mais orientado para os dados. Os data lakehouses também facilitam a ligação dos fluxos de dados, eliminando silos e promovendo uma maior colaboração - tudo isto mantendo caraterísticas essenciais como a governação, a segurança e o desempenho dos dados.

Vantagens da data lakehouse

Escalabilidade e flexibilidade na gestão de dados

Os data lakehouses podem ser perfeitamente dimensionados para acomodar volumes de dados crescentes em diversos tipos de dados, proporcionando às empresas a agilidade necessária para se adaptarem a cenários de dados em mudança.

Microsoft OneLake em Fabric é um data lake aberto que pode ser escalonado infinitamente, ingerir dados estruturados e não estruturados e processar grandes quantidades de dados, ao mesmo tempo que otimiza o desempenho dos motores de análise.

Caraterísticas de segurança e governação de dados melhoradas

Os data lakehouses incorporam medidas de segurança robustas para salvaguardar os dados sensíveis. A OneLake, por exemplo, utiliza ferramentas de segurança e governação líderes na indústria para garantir a qualidade dos dados da sua organização e que apenas as pessoas certas têm o acesso certo a esses dados. Isto ajuda a sua organização a manter-se em conformidade com os regulamentos da indústria e protegida contra o acesso não autorizado.

Eficácia em termos de custos e de desempenho

Através de um armazenamento em nuvem económico e de um processamento de dados otimizado, os data lakehouses oferecem uma solução acessível para armazenar e analisar dados em grande escala, tanto estruturados como não estruturados. O Microsoft Fabric reduz ainda mais os custos ao fornecer um único conjunto de capacidade e armazenamento que pode ser utilizado para cada carga de trabalho.

Apoio a diversas aplicações de análise de dados e de aprendizagem automática

Ao dar aos cientistas e analistas de dados a capacidade de efetuar análises em tempo real sobre dados em fluxo contínuo, os data lakehouses permitem que as organizações respondam rápida e proactivamente às condições em mudança à medida que estas surgem. Cargas de trabalho como o Fabric Real-Time Intelligence podem ingerir e transformar dados de fluxo contínuo, consultar em tempo real e acionar ações em resposta.

Arquitetura de data lakehouse

A arquitetura do Data Lakehouse consiste em vários componentes-chave que funcionam em conjunto para criar um sistema unificado de gestão e análise de dados. Segue-se uma descrição pormenorizada de cada componente:

1. Ingestão. A camada de ingestão é responsável pela recolha de dados de várias fontes, incluindo bases de dados, aplicações, dispositivos IoT e API externas, tanto em lote como em tempo real. OFabric Data Factory permite-lhe implementar fluxos e pipelines de dados para ingerir, preparar e transformar dados num conjunto rico de fontes. Esta camada assegura que todos os dados relevantes - estruturados, semi-estruturados e não estruturados - estão disponíveis para análise, fornecendo uma visão abrangente do panorama da organização.

2. Armazenamento. O nível de armazenamento funciona como a base do lago de dados, tratando grandes volumes de dados em bruto utilizando soluções de armazenamento escaláveis e económicas. Esta camada permite que os dados sejam armazenados no seu formato bruto, acomodando vários tipos de dados, como texto, imagens e vídeos, ao mesmo tempo que elimina a necessidade de esquemas rígidos para que os dados possam ser mais escaláveis.

3. Metadados. A camada de metadados cataloga os ativos de dados e mantém a informação do esquema, o que garante a qualidade dos dados para uma consulta eficiente. As equipas de dados podem compreender o contexto e a estrutura dos dados com que estão a trabalhar, o que resulta em informações mais eficazes.

4. API. A camada API fornece a interface que os programadores, os cientistas de dados e os analistas utilizam para aceder e interagir com os dados. Esta camada é crucial porque permite que diferentes aplicações e utilizadores trabalhem com os dados sem necessitarem de um conhecimento técnico profundo da arquitetura subjacente.

5. Consumo. A camada de consumo engloba as ferramentas e plataformas que dão a cada utilizador a capacidade de analisar e visualizar dados. Isto inclui ferramentas de business intelligence (BI) como o Power BI, bem como cargas de trabalho de ciência de dados e aprendizagem automática como o Fabric Data Science , que utilizam os dados armazenados no lakehouse. A camada de consumo transforma os dados brutos em informações acionáveis, permitindo que os intervenientes de toda a organização tomem decisões baseadas em dados.não processados

Implementação de um data lakehouse

Quer esteja a migrar os seus dados ou a criar uma solução totalmente nova, a implementação de um data lakehouse envolve várias etapas críticas. Segue-se uma descrição geral passo a passo do processo, incluindo as principais considerações:

1. Avaliar o panorama. Em primeiro lugar, é necessário identificar todas as fontes de dados existentes, incluindo bases de dados, aplicações e feeds externos. Para compreender os requisitos de armazenamento, convém categorizar os dados nessas fontes como estruturados, semi-estruturados ou não estruturados.

2. Definir requisitos e objetivos. Em seguida, é essencial que defina claramente os seus objetivos, o que o ajudará a determinar as suas necessidades com base no volume de dados e no crescimento previstos. Para proteger os seus dados sensíveis, deverá também identificar os requisitos de conformidade que terá de cumprir.

3. Escolher a pilha tecnológica. Escolha uma solução de armazenamento na nuvem ou no local que suporte as suas necessidades de data lakehouse e, em seguida, avalie as opções de processamento e análise de dados. Também deverá selecionar as ferramentas que irá utilizar para catalogação, gestão e controlo de linhagem.

4. Desenvolver uma estratégia de migração. Para minimizar as perturbações ao desenvolver uma estratégia de migração, deverá planear uma migração faseada, começando pelos dados menos críticos. Deve avaliar a qualidade dos dados, identificar as tarefas de limpeza ou transformação necessárias e estabelecer estratégias de cópia de segurança para garantir a integridade dos dados.

5. Criar pipelines. Depois de estabelecer a sua estratégia de migração, é altura de definir processos para fontes de ingestão de dados em lote e em tempo real utilizando APIs. Para simplificar ainda mais a ingestão de dados, poderá também considerar a implementação de ferramentas de automatização, como o Microsoft Power Automate, para reduzir a intervenção manual.

6. Configurar a gestão do armazenamento. Ao configurar o sistema de armazenamento, o utilizador deve fazê-lo de acordo com a estrutura definida para cada tipo de dados. Terá de estabelecer práticas de gestão de metadados para garantir a capacidade de descoberta dos dados, e terá também de definir permissões de acesso e protocolos de segurança para salvaguardar os dados.

7. Estabelecer um quadro analítico. Nesta altura, vai querer ligar as suas ferramentas de BI e de análise, como o Power BI, para a criação de relatórios e visualização. Terá também de fornecer aos programadores as estruturas, ferramentas e pontos de acesso necessários para a aprendizagem automática e a análise avançada.

8. Monitorizar, otimizar e iterar. Quando terminar a implementação, vai querer avaliar regularmente o desempenho, avaliar as capacidades de armazenamento e processamento utilizando a funcionalidade de monitorização de ponta a ponta como a que se encontra no Fabric. Também é necessário estabelecer um mecanismo de feedback com os utilizadores para identificar áreas de melhoria e otimização.

Exemplos de data lakehouses

As principais organizações do mundo estão a utilizar arquiteturas de data lakehouse para otimizar a utilização dos seus dados, impulsionar a tomada de decisões e promover a inovação em todas as operações. Eis alguns exemplos notáveis de implementações bem sucedidas:

1. Uma única fonte de informações
A empresa Flora Food Group, sediada nos Países Baixos, procurou consolidar várias ferramentas de análise numa plataforma única e mais eficiente, pelo que procurou a Fabric para unificar os seus canais de relatórios, engenharia de dados, ciência de dados e segurança numa única solução. Ao ligar todos os seus fluxos de dados, a empresa conseguiu simplificar a arquitetura da sua plataforma, reduzir os custos e oferecer informações mais detalhadas e atempadas aos seus clientes, melhorando, por sua vez, a prestação de serviços e a satisfação do cliente.

2. Análise avançada e aprendizagem automática
O Aeroporto de Melbourne, o segundo aeroporto mais movimentado da Austrália, precisava de atualizar as suas capacidades de análise de dados para melhorar a eficiência operacional e a experiência dos passageiros. Ao adotar o Fabric, a organização conseguiu consolidar dados de uma vasta gama de fontes de dados, incluindo estacionamento, vendas e sistemas operacionais do aeroporto, bem como expandir o acesso a informações baseadas em dados para utilizadores empresariais técnicos e não técnicos. Como resultado, o aeroporto obteve um aumento de 30% na eficiência do desempenho em todas as operações relacionadas com dados.

3. IA e aprendizagem profunda
A empresa de inovação digital Avanade tinha como objetivo melhorar os processos de tomada de decisões estratégicas na sua organização utilizando tecnologias de IA. Ao unificar o seu património de dados com a Fabric e ao formar mais de 10 000 funcionários em análise de dados, a Avanade estabeleceu as bases para que os utilizadores adotem mais facilmente a IA. Os utilizadores puderam utilizar as competências que aprenderam para desenvolver soluções de IA personalizadas, incluindo diferentes dashboards criados em linguagem natural e Copilot no Power BI.

4. Informações em tempo real
A Dener Motorsport, a principal organizadora da Porsche Carrera Cup Brasil, foi incumbida de fornecer dados abrangentes e atualizados sobre o desempenho e a reparação dos automóveis, tanto aos engenheiros como aos clientes. Ao adotar o Fabric e implementar as suas funcionalidades de análise, armazenamento e criação de relatórios em tempo real, a organização conseguiu apoiar melhor os intervenientes com informações acionáveis e em tempo real. Numa corrida recente, os engenheiros conseguiram mesmo identificar uma falha no motor de um carro de corrida Porsche, o que os levou a retirar o carro por razões de segurança.

Conclusão

O cenário em evolução da análise de dados

Impulsionadas pelo crescimento exponencial dos dados, bem como pela crescente procura de informações em tempo real, cada vez mais organizações estão a fazer a transição dos armazéns de dados tradicionais para soluções mais flexíveis.

Ao facilitar uma maior agilidade, escalabilidade, eficiência operacional e colaboração entre as equipas de dados, os data lakehouses permitem que as empresas realizem todo o potencial dos seus dados. Ao eliminar os silos e facilitar o acesso a diversos tipos de dados, os data lakehouses dão às organizações a capacidade de inovar e responder rapidamente às mudanças do mercado, tornando-os essenciais para a gestão moderna de dados.

Comece com uma avaliação gratuita do Fabric

Capacite a sua organização com o Microsoft Fabric, uma plataforma unificada de gestão e análise de dados para impulsionar transformação e inovação na era da IA.

Começar é simples e fácil. Não precisa de uma conta do Azure, mas pode, em alternativa, inscrever-se diretamente na plataforma do Fabric.

Saber mais

Recursos

Recursos adicionais

Explore ferramentas, recursos e melhores práticas concebidas para ajudar o seu lago de dados a prosperar.

Um homem de barba e óculos com as mãos levantadas.

Recursos

Visita guiada ao Microsoft Fabric

Veja como pode utilizar o Fabric para unificar todos os seus dados e executar análise em tempo real numa única plataforma.

Saiba mais

Um homem e uma mulher em frente a um grande ecrã.

Parceiros

Parceiros do Microsoft Fabric

Traga os seus dados para a era da IA com ajuda especializada de parceiros do Fabric qualificados.

Saiba mais

Grande plano do rosto de uma mulher com cabelo ruivo encaracolado.

Webinar

Série de Webinars: Apresentação do Microsoft Fabric

Assista a esta série para saber mais sobre as principais experiências e benefícios do Microsoft Fabric, uma solução de análise de ponta a ponta.

Saiba mais

Ao contrário dos armazéns de dados tradicionais, que lidam principalmente com dados estruturados de uma forma altamente organizada, os data lakehouses permitem uma ingestão e processamento de dados mais flexíveis, acomodando dados estruturados, semi-estruturados e não estruturados de uma variedade de fontes.
Os dados num data lakehouse podem ser utilizados por várias partes interessadas de uma organização, incluindo analistas de dados, cientistas de dados, profissionais de business intelligence e decisores, para obter informações, tomar decisões informadas e gerar valor comercial.
Um hub de dados é um repositório central que reúne dados de várias fontes para efeitos de elaboração de relatórios e de business intelligence. Um data lakehouse é uma plataforma mais abrangente que armazena dados estruturados, semi-estruturados e não estruturados para suportar informações em tempo real, aprendizagem automática e outras formas de análise avançada.
Os dados brutos num data lakehouse são normalmente armazenados no seu formato nativo, sem quaisquer modificações ou transformações, num sistema de ficheiros distribuído como o Apache Hadoop. Isto permite uma maior flexibilidade e escalabilidade quando se trabalha com grandes volumes de dados diversos.

Definição de data lakehouse

Principais conclusões

Visão geral do data lakehouse

Vantagens da data lakehouse

Escalabilidade e flexibilidade na gestão de dados

Caraterísticas de segurança e governação de dados melhoradas

Eficácia em termos de custos e de desempenho

Apoio a diversas aplicações de análise de dados e de aprendizagem automática

Arquitetura de data lakehouse

Implementação de um data lakehouse

Exemplos de data lakehouses

Conclusão

O cenário em evolução da análise de dados

Comece com uma avaliação gratuita do Fabric

Recursos adicionais

Visita guiada ao Microsoft Fabric

Parceiros do Microsoft Fabric

Série de Webinars: Apresentação do Microsoft Fabric

Perguntas Mais Frequentes

Seguir o Microsoft Fabric