This is the Trace Id: 9050c40f9be8c4b8a6736f8a30b2ed1b

Ce este un data lakehouse?

Vedeți prezentarea generală a beneficiilor și a procesului de implementare a unui data lakehouse.

Definirea data lakehouse-urilor

Un data lakehouse este o arhitectură unificată de gestionare a datelor care combină caracteristicile unui data lake și ale unui depozit de date, permițând stocarea și analiza atât a datelor structurate, cât și a celor nestructurate. Acesta permite ingestia flexibilă a datelor, analiză avansată și învățare automată, asigurând totodată securitatea datelor și o performanță optimizată.

Idei principale

  • Obțineți o prezentare generală a modelului de data lakehouse și de ce anume este important în peisajul actual bazat pe date.
  • Explorați beneficiile unui data lakehouse, inclusiv scalabilitatea, securitatea îmbunătățită, performanța mai bună și acceptarea unei analize diverse a datelor.
  • Aflați informații despre componentele principale care alcătuiesc arhitectura data lakehouse.
  • Obțineți îndrumare pas cu pas pentru cele mai bune modalități de a implementa o arhitectură data lakehouse.
  • Vedeți cum folosesc cele mai importante organizații din lume arhitectura data lakehouse pentru a îmbunătăți performanța.

Prezentarea generală a unui data lakehouse

Organizațiile bazate pe date de astăzi caută constant modalități inovatoare de a valorifica datele. Printre cele mai recente progrese se numără data lakehouse-ul, un cadru arhitectural care îmbină fără probleme punctele forte ale data lake-urilor și ale depozitelor de date într-o singură platformă. Acest model permite organizațiilor să stocheze cantități mari de date structurate, semi-structurate și nestructurate, pe care le pot folosi pentru a procesa, a analiza și a obține informații fără a necesita transformări extinse ale datelor.

Data lakehouse-urile sunt esențiale pentru strategiile moderne de date deoarece sunt suficient de flexibile pentru a accepta o gamă largă de cazuri de utilizare. Acestea oferă echipelor de date capacitatea de a rula interogări complexe și modele de învățare automată direct folosind date brute, facilitând astfel obținerea de informații și luarea deciziilor într-un mediu din ce în ce mai bazat pe date. De asemenea, data lakehouse-urile facilitează conectarea fluxurilor de date, eliminând silozurile și promovând o colaborare mai mare, în timp ce mențin caracteristici esențiale precum guvernarea datelor, securitatea și performanța.

Beneficiile unui data lakehouse

Scalabilitate și flexibilitate în gestionarea datelor

Data lakehouse-urile pot fi scalate fără probleme pentru a acomoda volumele de date în creștere, oferind organizațiilor agilitatea de a se adapta la peisajele de date în schimbare.

Microsoft OneLake în Fabric este un data lake deschis care poate fi scalat la infinit, poate ingera date structurate și nestructurate și poate procesa cantități masive de date, optimizând totodată performanța în motoarele de analiză.

Caracteristici îmbunătățite de securitate și guvernare a datelor

Data lakehouse-urile încorporează măsuri de securitate robuste pentru a proteja datele confidențiale. OneLake, de exemplu, folosește instrumente de securitate și guvernare de top în domeniu, pentru a asigura calitatea datelor organizației dvs. și faptul că numai persoanele care trebuie au acces corespunzător la aceste date. Acest lucru vă ajută organizația să rămână conformă cu reglementările din sectorul de activitate și protejată împotriva accesului neautorizat.

Rentabilitatea și eficiența performanței

Prin stocarea rentabilă în cloud și procesarea optimizată a datelor, data lakehouse-urile oferă o soluție accesibilă pentru stocarea și analiza la scară mare a datelor, atât structurate, cât și nestructurate. Microsoft Fabric reduce și mai mult costurile prin furnizarea unui singur fond comun de capacitate și stocare care poate fi utilizat pentru fiecare sarcină de lucru.

Acceptă analize diverse ale datelor și aplicații de învățare automată

Oferind analiștilor și specialiștilor în date capacitatea de a efectua analiză în timp real pe datele redate în flux, data lakehouse-urile permit organizațiilor să răspundă rapid și proactiv la condițiile schimbătoare, pe măsură ce apar. Sarcinile de lucru precum Inteligența Fabric în timp real pot ingera și transforma date redate în flux, pot interoga în timp real și pot declanșa acțiuni ca răspuns.

Arhitectura unui data lakehouse

Arhitectura data lakehouse constă în mai multe componente principale care lucrează împreună pentru a crea un sistem unificat pentru gestionarea și analiza datelor. Iată o detaliere a fiecărei componente:

1. Ingestie de date. Stratul de ingestie este responsabil cu colectarea datelor din diverse surse, inclusiv baze de date, aplicații, dispozitive IoT și API-uri externe, atât în loturi, cât și în timp real. Fabric Data Factory vă permite să implementați fluxuri de date și canale pentru a ingera, a pregăti și a transforma datele dintr-un set bogat de surse. Acest strat asigură faptul că toate datele relevante (structurate, semi-structurate și nestructurate) sunt disponibile pentru analiză, oferind o imagine cuprinzătoare a peisajului organizației.

2. Stocare. Stratul de stocare servește ca bază pentru data lakehouse, gestionând volume mari de date brute prin utilizarea unor soluții de stocare scalabile și rentabile. Acest strat permite stocarea datelor în formatul lor brut, acomodând diverse tipuri de date, cum ar fi text, imagini și videoclipuri, și eliminând totodată necesitatea unor scheme rigide pentru ca datele să fie mai scalabile.

3. Metadate. Stratul de metadate cataloghează activele de date și menține informațiile despre scheme, asigurând calitatea datelor pentru o interogare eficientă. Echipele de date pot înțelege contextul și structura datelor cu care lucrează, ceea ce duce la detalii mai eficiente.

4. API. Stratul API oferă interfața pe care dezvoltatorii, analiștii și specialiștii în date o folosesc pentru a accesa și a interacționa cu datele. Acest strat este esențial deoarece permite diferitelor aplicații și utilizatori să lucreze cu datele fără a necesita cunoștințe tehnice profunde despre arhitectura de bază.

5. Consum. Stratul de consum cuprinde instrumentele și platformele care oferă fiecărui utilizator capacitatea de a analiza și a vizualiza datele. Acesta include instrumente de business intelligence (BI) precum Power BI, precum și sarcini de lucru în știința datelor și învățarea automată precum Fabric Data Science, care utilizează datele stocate în lakehouse. Stratul de consum transformă datele brute în detalii practice, sprijinind participanții direct interesați din întreaga organizație să ia decizii bazate pe date.

Implementarea unui data lakehouse

Fie că migrați datele sau configurați o soluție complet nouă, implementarea unui data lakehouse implică mai mulți pași esențiali. Iată o prezentare generală pas cu pas a procesului, inclusiv aspectele esențiale de avut în vedere:

1. Evaluați peisajul. În primul rând, veți dori să identificați toate sursele de date existente, inclusiv baze de date, aplicații și fluxuri externe. Pentru a înțelege cerințele de stocare, ar trebui să clasificați datele din acele surse ca fiind structurate, semi-structurate sau nestructurate.

2. Definiți cerințele și obiectivele. Apoi, este esențial să vă conturați clar obiectivele. Acest lucru vă va ajuta să determinați nevoile pe baza volumului de date și a dezvoltării anticipate. Pentru a vă proteja datele confidențiale, va trebui să identificați și cerințele de conformitate pe care trebuie să le respectați.

3. Alegeți stiva tehnologică. Alegeți o soluție de stocare în cloud sau locală care să răspundă nevoilor dvs. în materie de data lakehouse, după care evaluați opțiunile pentru procesarea și analiza datelor. De asemenea, veți vrea să selectați instrumentele pe care le veți folosi pentru catalogarea, guvernarea și urmărirea traseului datelor.

4. Dezvoltați strategia de migrare. Pentru a minimiza întreruperile atunci când dezvoltați o strategie de migrare, va trebui să planificați o migrare în etape, începând cu datele mai puțin critice. Ar trebui să evaluați calitatea datelor, să identificați activitățile necesare de curățare sau transformare și să stabiliți strategii de backup pentru a asigura integritatea datelor.

5. Creați canale. După ce stabiliți strategia de migrare, este timpul să configurați procesele pentru sursele de ingestie a datelor în loturi și în timp real folosind API-uri. Pentru a simplifica și mai mult ingestia datelor, puteți lua în calcul implementarea unor instrumente de automatizare precum Microsoft Power Automate, pentru a reduce intervenția manuală.

6. Configurați gestionarea stocării. Când configurați sistemul de stocare, va trebui să faceți acest lucru conform structurii definite pentru fiecare tip de date. Va trebui să stabiliți practici de gestionare a metadatelor pentru a asigura descoperirea datelor și, de asemenea, va trebui să definiți permisiuni de acces și protocoale de securitate pentru protejarea datelor.

7. Stabiliți cadrul de analiză. În această etapă, veți dori să conectați instrumentele de business intelligence și analiză, precum Power BI, pentru raportare și vizualizare. De asemenea, va trebui să oferiți dezvoltatorilor cadrele, instrumentele și punctele de acces necesare pentru învățare automată și analiză avansată.

8. Monitorizați, optimizați și iterați. După ce terminați implementarea, va trebui să evaluați regulat performanța și capacitățile de stocare și procesare, folosind funcționalități de monitorizare integrală precum cele din Fabric. De asemenea, va trebui să stabiliți un mecanism de feedback cu utilizatorii, pentru a identifica zonele de îmbunătățire și optimizare.

Exemple de data lakehouse-uri

Cele mai importante organizații din lume folosesc arhitecturi data lakehouse pentru a optimiza utilizarea datelor lor, a îmbunătăți procesul decizional și a stimula inovația în diverse operațiuni. Iată câteva exemple notabile de implementări reușite:

1. O singură sursă de adevăr
Compania olandeză de aprovizionare cu alimente Flora Food Group a dorit să consolideze mai multe instrumente de analiză într-o platformă unică, mai eficientă, așa că s-au orientat către Fabric pentru a unifica raportarea, ingineria datelor, știința datelor și canalele de securitate într-o singură soluție. Prin conectarea tuturor fluxurilor de date, compania a reușit să-și simplifice arhitectura platformei, să reducă costurile și să ofere informații mai detaliate și mai rapide clienților, îmbunătățind astfel livrarea serviciilor și satisfacția clienților.

2. Analiză avansată și învățare automată
Aeroportul Melbourne, al doilea cel mai aglomerat aeroport din Australia, avea nevoie să își îmbunătățească capacitățile de analiză a datelor pentru a îmbunătăți eficiența operațională și experiența pasagerilor. Adoptând Fabric, organizația a reușit să consolideze datele dintr-o gamă vastă de surse de date, inclusiv parcarea, vânzările și sistemele operaționale ale aeroportului, precum și să extindă accesul la detalii bazate pe date pentru utilizatorii de business, atât tehnici, cât și non-tehnici. Ca rezultat, aeroportul a obținut o creștere cu 30% a eficienței performanței în toate operațiunile legate de date.

3. Inteligență artificială și învățare profundă
Compania de inovare digitală Avanade a avut ca obiectiv îmbunătățirea proceselor de luare a deciziilor strategice în cadrul organizației folosind tehnologii cu inteligență artificială. Prin unificarea patrimoniului de date cu Fabric și instruirea a peste 10.000 de angajați în analiza datelor, Avanade a pus bazele unei adoptări mai ușoare a inteligenței artificiale de către utilizatori. Utilizatorii au putut folosi competențele deprinse pentru a dezvolta soluții de inteligență artificială personalizate, inclusiv diferite tablouri de bord dezvoltate pe limbaj natural și Copilot în Power BI.

4. Detalii în timp real
Dener Motorsport, organizatorul principal al Porsche Carrera Cup Brasil, a fost însărcinat cu furnizarea de date cuprinzătoare și actualizate despre performanța și repararea mașinilor, atât pentru ingineri, cât și pentru clienți. Prin adoptarea Fabric și implementarea caracteristicilor sale de analiză în timp real, stocare și raportare, organizația a reușit să sprijine mai bine participanții direct interesați cu detalii practice în timp real. Mai mult, la o cursă recentă, inginerii au reușit să identifice un motor defect la o mașină de curse Porsche, ceea ce i-a determinat să o retragă din motive de siguranță.

Concluzii

Peisajul în continuă evoluție al analizei datelor


Determinate de creșterea exponențială a datelor, precum și de cererea tot mai mare pentru detalii în timp real, tot mai multe organizații fac tranziția de la depozitele de date tradiționale la soluții mai flexibile.

Facilitând o mai mare agilitate, scalabilitate, eficiență operațională și colaborare între echipele de date, data lakehouse-urile permit firmelor să profite la maximum de datele pe care le dețin. Prin desființarea silozurilor și oferirea unui acces mai ușor la diverse tipuri de date, data lakehouse-urile oferă organizațiilor capacitatea de a inova și de a răspunde rapid la schimbările pieței, făcându-le esențiale pentru o gestionare modernă a datelor.

Începeți lucrul cu o versiune de încercare Fabric gratuită

Dotați organizația cu Microsoft Fabric, o platformă unificată de analiză și gestionare a datelor, pentru a stimula transformarea și inovarea în epoca inteligenței artificiale.

Este simplu să începeți. Nu aveți nevoie de un cont Azure; vă puteți înregistra direct pe platforma Fabric.

Aflați mai multe
Resurse

Resurse suplimentare

Explorați instrumentele, resursele și cele mai bune practici concepute să vă ajute data lakehouse-ul să prospere.
Un bărbat cu barbă și ochelari, cu mâinile ridicate.
Resurse

Turul ghidat Microsoft Fabric

Vedeți cum puteți utiliza Fabric pentru a vă unifica datele și a rula analiza în timp real pe o singură platformă.
Un bărbat și o femeie stând în fața unui ecran mare.
Parteneri

Parteneri Microsoft Fabric

Aduceți datele în epoca inteligenței artificiale cu ajutorul specializat al partenerilor calificați în Fabric.
Prim-plan cu fața unei femei cu păr roșcat creț.
Seminar web

Seria de seminare web: Introducere în Microsoft Fabric

Urmăriți această serie pentru a descoperi experiențele și principalele beneficii ale Microsoft Fabric, o soluție completă de analiză.

Întrebări frecvente

  • Spre deosebire de depozitele de date tradiționale, care gestionează în principal date structurate într-un mod foarte organizat, data lakehouse-urile permit o ingestie și o procesare a datelor mai flexibile, acomodând date structurate, semi-structurate și nestructurate dintr-o varietate de surse.
  • Datele dintr-un data lakehouse pot fi utilizate de diferiți participanți direct interesați din cadrul unei organizații, inclusiv analiști de date, specialiști în date, profesioniști în business intelligence și factori de decizie, pentru a obține informații, a lua decizii informate și a genera un plus valoare de business.
  • Un hub de date este un depozit central ce reunește date din diverse surse în scopul raportării și pentru business intelligence. Un data lakehouse este o platformă mai cuprinzătoare ce stochează date structurate, semi-structurate și nestructurate pentru a sprijini detaliile în timp real, învățarea automată și alte forme de analiză avansată.
  • Datele brute dintr-un data lakehouse sunt de obicei stocate în formatul lor nativ, fără modificări sau transformări, într-un sistem distribuit de fișiere precum Apache Hadoop. Acest lucru permite mai multă flexibilitate și scalabilitate atunci când lucrați cu volume mari de date diverse.

Urmăriți Microsoft Fabric