Che cos'è un data lakehouse?

Definizione di data lakehouse

Un data lakehouse è un'architettura di gestione dei dati unificata che combina le funzionalità di un data lake e di un data warehouse, consentendo l'archiviazione e l'analisi di dati sia strutturati che non strutturati. Supporta l'inserimento flessibile dei dati, l'analisi avanzata e il machine learning, il tutto garantendo la sicurezza dei dati e prestazioni ottimizzate.

Spunti di riflessione chiave

Ottieni una panoramica del modello di data lakehouse e del motivo per cui è importante nel panorama attuale basato sui dati.
Esplora i vantaggi di un data lakehouse, tra cui la scalabilità, la sicurezza avanzata, le prestazioni migliori e il supporto di diverse analisi dei dati.
Scopri i componenti chiave che compongono l'architettura di un data lakehouse.
Ottieni indicazioni dettagliate sui modi migliori per implementare l'architettura di un data lakehouse.
Scopri come le principali organizzazioni del mondo stanno utilizzando l'architettura di un data lakehouse per migliorare le prestazioni.

Panoramica del data lakehouse

Le organizzazioni basate sui dati odierne cercano costantemente modi innovativi per sfruttare i dati. Tra i progressi più recenti c'è il data lakehouse, un framework architettonico che unisce facilmente i punti di forza dei data lake e dei data warehouse in un'unica piattaforma. Questo modello consente alle organizzazioni di memorizzare enormi quantità di dati strutturati, semistrutturati e non strutturati, che possono poi essere utilizzati per elaborare, analizzare e trarre informazioni senza la necessità di una trasformazione estesa.

I data lakehouse sono cruciali per le strategie di dati moderne perché sono abbastanza flessibili da supportare una vasta gamma di casi d'uso. Offrono ai team di dati la possibilità di eseguire query complesse e modelli di machine learning direttamente utilizzando dati non elaborati, consentendo così alle aziende di derivare le informazioni dettagliate e promuovere il processo decisionale in un ambiente sempre più basato sui dati in tutta facilità. Inoltre i data lakehouse semplificano la connessione dei flussi di dati, eliminando i silos e favorendo una maggiore collaborazione, il tutto mantenendo funzionalità essenziali come la governance dei dati, la sicurezza e le prestazioni.

Vantaggi del data lakehouse

Scalabilità e flessibilità nella gestione dei dati

I data lakehouse possono scalare senza problemi per adattarsi a volumi di dati in crescita attraverso diversi tipi di dati, fornendo alle aziende l'agilità necessaria per adeguarsi ai panorami di dati in evoluzione.

Microsoft OneLake in Fabric è un data lake aperto in grado di scalare all'infinito, acquisire dati strutturati e non strutturati ed elaborare enormi quantità di dati, ottimizzando al contempo le prestazioni sui motori di analisi.

Funzionalità avanzate di governance e sicurezza dei dati

I data lakehouse incorporano misure di sicurezza robuste per proteggere i dati sensibili. OneLake, ad esempio, utilizza strumenti di sicurezza e governance leader del settore per garantire la qualità dei dati dell'organizzazione e l'accesso a tali dati solo da parte delle persone giuste. In questo modo l'organizzazione può rimanere conforme alle normative del settore e protetta contro eventuali accessi non autorizzati.

Convenienza economica ed efficienza delle prestazioni

Attraverso un'archiviazione cloud conveniente e un'elaborazione dei dati ottimizzata, i data lakehouse offrono una soluzione economica per archiviare e analizzare i dati su larga scala, sia strutturati che non strutturati. Microsoft Fabric riduce ulteriormente i costi fornendo un'unica risorsa di capacità e archiviazione utilizzabile per ogni carico di lavoro.

Supporto di diverse applicazioni di analisi dei dati e machine learning

Consentendo agli scienziati dei dati e agli analisti di eseguire analisi in tempo reale con i dati in streaming, i data lakehouse permettono alle organizzazioni di rispondere rapidamente e proattivamente alle condizioni in cambiamento man mano che si presentano. I carichi di lavoro come l'intelligence in tempo reale di Fabric possono inserire e trasformare dati in streaming, eseguire query in tempo reale e attivare azioni in risposta.

Architettura del data lakehouse

L'architettura del data lakehouse è composta da diversi componenti chiave che funzionano insieme per creare un sistema unificato per la gestione e l'analisi dei dati. Ecco una panoramica dettagliata di ciascun componente:

1. Inserimento. Il livello di inserimento è responsabile della raccolta dei dati da varie origini, tra cui database, applicazioni, dispositivi IoT e API esterne, sia in batch che in tempo reale. Fabric Data Factory consente di implementare flussi e pipeline di dati per inserire, preparare e trasformare i dati in un'ampia gamma di origini. Questo livello garantisce che tutti i dati rilevanti, ovvero strutturati, semistrutturati e non strutturati, siano disponibili per l'analisi, fornendo una visione completa del panorama dell'organizzazione.

2. Archiviazione. Il livello di archiviazione funge da base del data lakehouse: gestisce grandi volumi di dati non elaborati utilizzando soluzioni di archiviazione scalabili e convenienti. Consente di archiviare nel formato non elaborato vari tipi di dati, tra cui testo, immagini e video, eliminando la necessità di schemi rigidi affinché i dati possano essere più scalabili.

3. Metadati. Il livello di metadati cataloga le risorse di dati e mantiene le informazioni sullo schema, garantendo la qualità dei dati per query efficienti. I team di dati possono comprendere il contesto e la struttura dei dati che stanno utilizzando, risultando in informazioni dettagliate più efficaci.

4. API. Il livello di API fornisce l'interfaccia che gli sviluppatori, gli scienziati dei dati e gli analisti utilizzano per accedere a e interagire con i dati. È cruciale perché consente a diverse applicazioni e utenti di utilizzare i dati senza bisogno di una profonda conoscenza tecnica dell'architettura sottostante.

5. Consumo. Il livello di consumo comprende gli strumenti e le piattaforme che danno a ciascun utente la possibilità di analizzare e visualizzare i dati. Sono inclusi strumenti di business intelligence (BI) come Power BI, nonché carichi di lavoro di data science e machine learning come Fabric Data Science, che utilizzano i dati archiviati nel lakehouse. Il livello di consumo trasforma i dati non elaborati in informazioni dettagliate fruibili, consentendo agli stakeholder dell'intera organizzazione di prendere decisioni basate sui dati.

Implementazione di un data lakehouse

Che tu stia eseguendo la migrazione dei dati o configurando una soluzione completamente nuova, implementare un data lakehouse comporta diversi passaggi critici. Ecco una panoramica dettagliata del processo, tra cui alcune considerazioni chiave:

1. Valuta il panorama. Innanzitutto dovrai identificare tutte le origini di dati esistenti, tra cui database, applicazioni e feed esterni. Per comprendere i requisiti di archiviazione, dovrai categorizzare i dati in tali origini come strutturati, semistrutturati o non strutturati.

2. Definisci i requisiti e gli obiettivi. Quindi dovrai delineare chiaramente gli obiettivi, che ti aiuteranno a determinare le esigenze in base al volume di dati previsto e alla crescita. Per proteggere i dati sensibili, dovrai anche identificare i requisiti di conformità da soddisfare.

3. Scegli lo stack tecnologico. Scegli una soluzione di archiviazione cloud o locale che soddisfi le esigenze del data lakehouse, quindi valuta le opzioni per l'elaborazione e l'analisi dei dati. Dovrai inoltre selezionare gli strumenti per la catalogazione, la governance e il monitoraggio della derivazione dei dati.

4. Sviluppa una strategia di migrazione. Per ridurre al minimo le interruzioni durante lo sviluppo di una strategia di migrazione, dovrai pianificare una migrazione graduale, a partire dai dati meno critici. Dovresti valutare la qualità dei dati, identificare le necessarie attività di pulizia o trasformazione e stabilire strategie di backup per garantire l'integrità dei dati.

5. Crea pipeline. Una volta stabilita la strategia di migrazione, devi configurare i processi per l'inserimento dei dati batch e in tempo reale utilizzando le API. Per semplificare ulteriormente l'inserimento dei dati, potresti anche valutare la possibilità di implementare gli strumenti di automazione, come Microsoft Power Automate, per ridurre l'intervento manuale.

6. Configura la gestione dell'archiviazione. Dovrai configurare il sistema di archiviazione secondo la struttura definita per ciascun tipo di dati. Dovrai stabilire pratiche di gestione dei metadati per garantire l'individuabilità dei dati e definire anche le autorizzazioni di accesso e i protocolli di sicurezza per proteggere i dati.

7. Stabilisci il framework di analisi. A questo punto dovrai collegare gli strumenti di BI e analisi, come Power BI, per la creazione di report e la visualizzazione. Inoltre dovrai fornire agli sviluppatori i framework, gli strumenti e i punti di accesso necessari per il machine learning e l'analisi avanzata.

8. Monitora, ottimizza e itera. Al termine dell'implementazione dovrai misurare regolarmente le prestazioni e valutare le funzionalità di archiviazione ed elaborazione utilizzando le funzioni di monitoraggio end-to-end come quelle presenti in Microsoft Fabric. Inoltre dovrai stabilire un meccanismo di feedback con gli utenti per identificare le aree di miglioramento e ottimizzazione.

Esempi di data lakehouse

Le principali organizzazioni del mondo stanno utilizzando le architetture dei data lakehouse per ottimizzare l'uso dei dati, migliorare il processo decisionale e promuovere l'innovazione nelle operazioni. Ecco alcuni esempi notevoli di implementazioni di successo:

1. Un'unica origine di riferimento
Flora Food Group, un'azienda olandese che si occupa della catena di approvvigionamento alimentare, ha cercato di consolidare più strumenti di analisi in un'unica piattaforma più efficiente, quindi si è rivolta a Fabric per unificare i canali di creazione di report, ingegneria dei dati, data science e sicurezza in una singola soluzione. Collegando tutti i flussi di dati, l'azienda è riuscita a semplificare l'architettura della piattaforma, ridurre i costi e offrire informazioni più dettagliate e tempestive ai propri clienti, migliorando così la qualità del servizio e la soddisfazione del cliente.

2. Analisi avanzata e machine learning
L'aeroporto di Melbourne, il secondo aeroporto più trafficato in Australia, aveva bisogno di aggiornare le funzionalità di analisi dei dati per migliorare l'efficienza operativa e l'esperienza dei passeggeri. Adottando Fabric, l'organizzazione è riuscita a consolidare i dati provenienti da un'ampia gamma di origini, tra cui i sistemi di parcheggio, vendita e operazioni aeroportuali, oltre ad ampliare l'accesso a informazioni dettagliate basate sui dati per utenti aziendali sia tecnici che non tecnici. Di conseguenza l'aeroporto ha registrato un aumento del 30% dell'efficienza delle prestazioni in tutte le operazioni legate ai dati.

3. IA e Deep Learning
Avanade, un'azienda di innovazione digitale, mirava a migliorare i processi decisionali strategici all'interno dell'organizzazione utilizzando le tecnologie di IA. Unificando il patrimonio dati con Fabric e formando oltre 10.000 dipendenti nell'analisi dei dati, Avanade ha posto le basi affinché gli utenti possano adottare più facilmente l'IA. Gli utenti sono riusciti a sfruttare le competenze apprese per sviluppare soluzioni di IA personalizzate, tra cui diversi dashboard basati sul linguaggio naturale e Copilot in Power BI.

4. Informazioni dettagliate in tempo reale
Dener Motorsport, il principale organizzatore della Porsche Carrera Cup Brasil, è stato incaricato di fornire dati completi e aggiornati sulle prestazioni e sulle riparazioni delle auto sia agli ingegneri che ai clienti. Adottando Fabric e implementando le sue funzionalità di analisi in tempo reale, archiviazione e creazione di report, l'organizzazione è riuscita a supportare meglio gli stakeholder con informazioni dettagliate fruibili, in tempo reale. Durante una recente gara, gli ingegneri sono riusciti persino a identificare un motore difettoso in una Porsche da corsa, suggerendo loro di rimuovere l'auto per motivi di sicurezza.

Conclusioni

Il panorama in evoluzione dell'analisi dei dati

Sulla base dell'aumento esponenziale dei dati e della crescente domanda di informazioni dettagliate in tempo reale, un numero sempre maggiore di organizzazioni sta passando dai data warehouse tradizionali a soluzioni più flessibili.

Offrendo un'agilità, una scalabilità, un'efficienza operativa e una collaborazione migliori tra i team di dati, i data lakehouse consentono alle aziende di realizzare il pieno potenziale dei dati. Abbattendo i silos e fornendo un accesso più semplice a diversi tipi di dati, i data lakehouse danno alle organizzazioni la possibilità di innovare e rispondere rapidamente ai cambiamenti del mercato, diventando essenziali per la gestione moderna dei dati.

Inizia con una versione di prova gratuita di Fabric

Supporta la tua organizzazione con Microsoft Fabric, una piattaforma unificata di gestione e di analisi dei dati per facilitare la trasformazione e l’innovazione nell’era dell’IA.

Iniziare è semplice e rapido. Non è necessario un account Azure: puoi registrarti direttamente dalla piattaforma Fabric.

Scopri di più

Risorse

Risorse aggiuntive

Esplora gli strumenti, le risorse e le procedure consigliate pensate per aiutare il data lakehouse a prosperare.

Un uomo con barba e occhiali con le mani alzate.

Risorse

Presentazione guidata di Microsoft Fabric

Scopri come puoi utilizzare Fabric per unificare tutti i dati ed eseguire analisi in tempo reale su una singola piattaforma.

Scopri di più

Un uomo e una donna in piedi di fronte a un grande schermo.

Partner

Partner di Microsoft Fabric

Porta i tuoi dati nell'era dell'intelligenza artificiale con l'aiuto esperto di partner di Fabric qualificati.

Scopri di più

Primo piano del volto di una donna con capelli ricci rossi.

Webinar

Serie di webinar: Introduzione a Microsoft Fabric

Guarda questa serie per scoprire i vantaggi e le esperienze chiave di Microsoft Fabric, una soluzione di analisi end-to-end.

Scopri di più

A differenza dei data warehouse tradizionali, che gestiscono principalmente dati strutturati in modo altamente organizzato, i data lakehouse consentono di inserire ed elaborare i dati in modo più flessibile, ospitando dati strutturati, semistrutturati e non strutturati provenienti da una varietà di origini.
I dati in un data lakehouse possono essere utilizzati da vari stakeholder all'interno di un'organizzazione, tra cui gli analisti di dati, gli scienziati dei dati, i professionisti di business intelligence e i decision maker, per acquisire informazioni dettagliate, prendere decisioni consapevoli e generare valore per l'azienda.
Un data hub è un repository centrale che riunisce i dati provenienti da varie origini per scopi di creazione di report e business intelligence. Un data lakehouse è una piattaforma più completa che archivia i dati strutturati, semistrutturati e non strutturati per supportare informazioni dettagliate in tempo reale, il machine learning e altre forme di analisi avanzata.
I dati non elaborati in un data lakehouse sono tipicamente archiviati nel loro formato nativo, senza modifiche o trasformazioni, in un sistema di file distribuito come Apache Hadoop. In questo modo hai più flessibilità e scalabilità quando utilizzi grandi volumi di dati diversi.

Che cos'è un data lakehouse?

Definizione di data lakehouse

Spunti di riflessione chiave

Panoramica del data lakehouse

Vantaggi del data lakehouse

Scalabilità e flessibilità nella gestione dei dati

Funzionalità avanzate di governance e sicurezza dei dati

Convenienza economica ed efficienza delle prestazioni

Supporto di diverse applicazioni di analisi dei dati e machine learning

Architettura del data lakehouse

Implementazione di un data lakehouse

Esempi di data lakehouse

Conclusioni

Il panorama in evoluzione dell'analisi dei dati

Inizia con una versione di prova gratuita di Fabric

Risorse aggiuntive

Presentazione guidata di Microsoft Fabric

Partner di Microsoft Fabric

Serie di webinar: Introduzione a Microsoft Fabric

Domande frequenti

Segui Microsoft Fabric