Mis on Data Lake? See on arhitektuur

Mis on Data Lake?

Data Lake on salvestushoidla, kuhu saab salvestada suures koguses struktureeritud, poolstruktureeritud ja struktureerimata andmeid. See on koht, kus saab salvestada igat tüüpi andmeid oma vormingus, ilma konto suuruse või faili suhtes fikseeritud piiranguteta. See pakub suurt andmehulka, et suurendada analüütilist jõudlust ja natiivset integreerimist.

Data Lake on nagu suur konteiner, mis sarnaneb väga tõeliste järvede ja jõgedega. Nii nagu järves, kuhu tuleb mitu lisajõge, on ka andmjärves struktureeritud andmed, struktureerimata andmed, masinast masinasse, reaalajas läbi voolavad logid.

Data Lake demokratiseerib andmeid ja on kulutõhus viis kõigi organisatsiooni andmete salvestamiseks hilisemaks töötlemiseks. Uurimisanalüütik saab keskenduda andmete tähenduse mustrite leidmisele, mitte andmetele endale.

Erinevalt hierarhilisest andmetarkvaramajast, kus andmeid hoitakse failides ja kaustades, on Data järv lame arhitektuur. Kõigile andmejärve andmeelementidele antakse kordumatu identifikaator ja märgistatakse metaandmete teabe komplektiga.

Selles õpetuses saate teada

  • Mis on Data Lake?
  • Miks Data Lake?
  • Data Lake'i arhitektuur
  • Põhiandmete järve kontseptsioonid
  • Data Lake'i küpsusastmed
  • Parimad tavad Data Lake'i rakendamiseks:
  • Andmete järvede ja andmeladu erinevus
  • Data Lake kasutamise eelised ja riskid:

Miks Data Lake?

Andmete järve ehitamise peamine eesmärk on pakkuda andmeteadlastele täpsustamata vaadet andmetele.

Data Lake'i kasutamise põhjused on järgmised:

  • Hadoopi-laadsete salvestusmootorite kasutuselevõtuga on erineva teabe salvestamine muutunud lihtsaks. Andmeid pole vaja üle kogu ettevõtte skeemiks koos Data Lake'iga modelleerida.
  • Andmemahu, andmete kvaliteedi ja metaandmete suurenemisega suureneb ka analüüside kvaliteet.
  • Data Lake pakub ärilist agilityt
  • Masinõppimist ja tehisintellekti saab kasutada kasumlike ennustuste tegemiseks.
  • See pakub rakendusorganisatsioonile konkurentsieeliseid.
  • Andmete silo struktuur puudub. Data Lake annab klientidele 360-kraadise vaate ja muudab analüüsi usaldusväärsemaks.

Data Lake'i arhitektuur

Joonisel on näidatud Business Data Lake'i arhitektuur. Alumised tasemed tähistavad enamasti puhkeasendis olevaid andmeid, samal ajal kui ülemised tasemed näitavad reaalajas tehingute andmeid. See andmevoog liigub süsteemis ilma viivituseta või üldse vähe. Data Lake'i arhitektuuris on järgmised olulised astmed:

  1. Allaneelamistase : vasakul küljel olevad astmed kujutavad andmeallikaid. Andmeid saab andmekogusse laadida partiidena või reaalajas
  2. Insights Tier: Parempoolsed astmed esindavad uurimispoolt, kus süsteemist pärit teadmisi kasutatakse. Andmete analüüsimiseks võiks kasutada SQL-i, NoSQL-i päringuid või isegi Exceli.
  3. HDFS on kulutõhus lahendus nii struktureeritud kui ka struktureerimata andmete jaoks. See on maandumistsoon kõigi andmete jaoks, mis on süsteemis puhkeseisundis.
  4. Destilleerimistasand võtab andmed rehvidelt ja teisendab need lihtsamaks analüüsimiseks struktureeritud andmeteks.
  5. Struktuuriandmete loomiseks lihtsamaks analüüsimiseks töötletakse erineva reaalajas interaktiivsete partiipõhiste analüütiliste algoritmide ja kasutajate päringute töötlemine.
  6. Ühtne operatsioonitase reguleerib süsteemi haldamist ja jälgimist. See hõlmab auditeerimist ja oskuste haldamist, andmehaldust, töövoo haldamist.

Põhiandmete järve kontseptsioonid

Järgnevalt on toodud Data Lake'i põhikontseptsioonid, millest tuleb aru saada, et Data Lake'i arhitektuuri täielikult mõista

Andmete sisestamine

Andmete sisestamine võimaldab pistikutel saada andmeid erinevatest andmeallikatest ja laadida andmeid järve.

Andmete sisestamine toetab:

  • Igat tüüpi struktureeritud, poolstruktureeritud ja struktureerimata andmed.
  • Mitu sissevõtmist, näiteks pakk, reaalajas, ühekordne laadimine.
  • Mitut tüüpi andmeallikad, nagu andmebaasid, veebiserverid, e-kirjad, asjade Interneti ja FTP.

Andmekogu

Andmete salvestamine peaks olema skaleeritav, pakkuma kulutõhusat salvestamist ja võimaldama kiiret juurdepääsu andmete uurimisele. See peaks toetama erinevaid andmevorminguid.

Andmete haldamine

Andmete haldamine on organisatsioonis kasutatavate andmete kättesaadavuse, kasutatavuse, turvalisuse ja terviklikkuse haldamise protsess.

Turvalisus

Turvalisus tuleb rakendada igas Data Lake'i kihis. See algab salvestamise, maandamise ja tarbimisega. Põhivajadus on volitamata kasutajate juurdepääsu peatamine. See peaks toetama erinevaid tööriistu andmetele juurdepääsemiseks hõlpsasti navigeeritavate graafilise kasutajaliidese ja juhtpaneelidega.

Autentimine, raamatupidamine, autoriseerimine ja andmekaitse on mõned olulised andmete järve turvalisuse tunnused.

Andmete kvaliteet:

Andmete kvaliteet on Data Lake'i arhitektuuri oluline komponent. Andmeid kasutatakse ettevõtte väärtuse täpseks määramiseks. Halva kvaliteediga andmetest teadmiste väljavõtmine toob kaasa halva kvaliteediga ülevaate.

Andmete avastamine

Andmete avastamine on veel üks oluline etapp enne andmete või analüüsi ettevalmistamise alustamist. Selles etapis kasutatakse andmete mõistmise väljendamiseks sildistamistehnikat, korraldades ja tõlgendades Data Lake'i sisestatud andmeid.

Andmete audit

Kaks peamist andmeauditi ülesannet on võtmeandmekogumi muudatuste jälgimine.

  1. Oluliste andmekogumi elementide muudatuste jälgimine
  2. Jäädvustab, kuidas / millal / ja kes neid elemente muudab.

Andmete audit aitab hinnata riski ja nõuetele vastavust.

Andmete liin

See komponent käsitleb andmete päritolu. Peamiselt käsitletakse seda, kuhu see aja jooksul liigub ja mis sellega juhtub. See hõlbustab vigade parandamist andmeanalüüsi protsessis algusest sihtkohta.

Andmete uurimine

See on andmete analüüsi algusetapp. See aitab enne andmete uurimise alustamist tuvastada õige andmestik.

Kõik etteantud komponendid peavad tegema koostööd, et mängida olulist rolli Data Lake'i ehitamises ja hõlpsasti arenevas keskkonnas.

Data Lake'i küpsusastmed

Data Lake'i küpsusastmete määratlus on õpikutest erinev. Kuigi tuum jääb samaks. Pärast küpsust on etapi määratlus võhiku seisukohast.

1. etapp: käsitsege ja sisestage andmeid skaalal

See andmeküpsuse esimene etapp hõlmab andmete teisendamise ja analüüsimise võime parandamist. Siit peavad ettevõtete omanikud leidma tööriistad vastavalt oma oskustele, et saada rohkem andmeid ja koostada analüütilisi rakendusi.

2. etapp: analüütilise lihase ehitamine

See on teine ​​etapp, mis hõlmab andmete teisendamise ja analüüsimise võime parandamist. Selles etapis kasutavad ettevõtted tööriistu, mis on nende oskuste jaoks kõige sobivam. Nad hakkavad hankima rohkem andmeid ja ehitama rakendusi. Siin kasutatakse ettevõtte andmelao ja andmekogu võimalusi koos.

3. etapp: EDW ja Data Lake töötavad ühtselt

See samm hõlmab andmete ja analüütika saamist võimalikult paljude inimeste kätte. Selles etapis hakkavad andmekogum ja ettevõtte andmelao liidus töötama. Mõlemad mängivad oma osa analüütikas

4. etapp: ettevõtte suutlikkus järves

Selles andmejärve küpsusastmes lisatakse Data Lake'i ettevõtte võimalused. Infohalduse, teabe olelusringi haldamise võimaluste ja metaandmete haldamise vastuvõtmine. Sellele küpsusastmele jõuavad siiski väga vähesed organisatsioonid, kuid tulevikus see arv suureneb.

Parimad tavad Data Lake'i rakendamiseks:

  • Arhitektuursed komponendid, nende koostoime ja tuvastatud tooted peaksid toetama algseid andmetüüpe
  • Data Lake'i kujundamisel tuleks lähtuda sellest, mis on nõutava asemel saadaval. Skeemi ja andmenõuet ei määratleta enne, kui sellele päringut esitatakse
  • Kujundus peaks juhinduma teenuse API-ga integreeritud ühekordselt kasutatavatest komponentidest.
  • Andmete avastamist, sisestamist, salvestamist, haldamist, kvaliteeti, teisendamist ja visualiseerimist tuleks hallata iseseisvalt.
  • Data Lake'i arhitektuur peaks olema kohandatud konkreetsele tööstusharule. See peaks tagama, et selle domeeni jaoks vajalikud võimalused on kujunduse lahutamatu osa
  • Oluline on värskelt avastatud andmeallikate kiirem pardaleminek
  • Data Lake aitab kohandatud haldusel maksimaalset väärtust välja tõmmata
  • Data Lake peaks toetama olemasolevaid ettevõtte andmete haldamise tehnikaid ja meetodeid

Andmete järve ehitamise väljakutsed:

  • Data Lake'is on andmemaht suurem, nii et protsess peab rohkem sõltuma programmilisest haldusest
  • Hõredate, puudulike ja kõikuvate andmetega on raske toime tulla
  • Andmekogumi ja allika laiem ulatus vajab suuremat andmete haldamist ja tuge

Andmete järvede ja andmeladu erinevus

Parameetrid Andmete järved Andmeladu
Andmed Andmete järved salvestavad kõike. Andmeladu keskendub ainult äriprotsessidele.
Töötlemine Andmed on peamiselt töötlemata Kõrgelt töödeldud andmed.
Andmete tüüp See võib olla struktureerimata, poolstruktureeritud ja struktureeritud. See on enamasti tabeli kujul ja struktuuris.
Ülesanne Jagage andmete haldamist Optimeeritud andmete otsimiseks
Agility Väga kiire, konfigureerige ja konfigureerige vastavalt vajadusele. Võrreldes Data järvega on see vähem liikuv ja fikseeritud konfiguratsiooniga.
Kasutajad Data Lake'i kasutab enamasti Data Scientist Äriprofessionaalid kasutavad laialdaselt andmeladu
Ladustamine Andmete järvede disain odava ladustamise jaoks. Kasutatakse kallist salvestusruumi, mis annab kiire reageerimisaja
Turvalisus Pakub vähem kontrolli. Võimaldab andmeid paremini juhtida.
EDW asendamine Andmete järv võib olla EDW allikas Täiendab EDW-d (ei asenda)
Skeem Lugemisskeem (eelnevalt skeeme pole) Kirjutamise skeem (eelnevalt määratletud skeemid)
Andmetöötlus Aitab uute andmete kiirel sisestamisel. Uue sisu tutvustamine on aeganõudev.
Andmete täpsus Andmed on üksikasjalikud või üksikasjalikud. Andmed kokkuvõtlikult või kokkuvõtlikult üksikasjalikult.
Tööriistad Oskab kasutada avatud lähtekoodiga tööriistu nagu Hadoop / Map Reduce Enamasti kommertsvahendid.

Data Lake kasutamise eelised ja riskid:

Siin on mõned peamised eelised Data Lake'i kasutamisel:

  • Aitab täielikult toote ioniseeriva ja täiustatud analüüsi puhul
  • Pakub kulutõhusat mastaapsust ja paindlikkust
  • Pakub väärtust piiramatut tüüpi andmetest
  • Vähendab pikaajalisi omandikulusid
  • Võimaldab failide majanduslikku salvestamist
  • Kiiresti kohandatav muudatustega
  • Andmete järve peamine eelis on erinevate sisuallikate tsentraliseerimine
  • Kasutajad erinevatest osakondadest võivad olla hajutatud üle kogu maailma, neil on andmetele paindlik juurdepääs

Data Lake'i kasutamise oht:

  • Mõne aja pärast võib Data Lake kaotada asjakohasuse ja hoogu
  • Data Lake'i kujundamisel on suurem summaoht
  • Struktureerimata andmed võivad viia valitsuseta kaoseni, kasutuskõlbmatute andmeteni, erinevate ja keerukate tööriistadeni, kogu ettevõtet hõlmava koostöö, ühtse, järjepideva ja ühise koostööni
  • See suurendab ka ladustamise ja arvutamise kulusid
  • Teistelt, kes on andmetega töötanud, pole mingil moel võimalik saada teadmisi, kuna varasemate analüütikute leidude sugupuu kohta pole ülevaadet
  • Andmete järvede suurim risk on turvalisus ja juurdepääsu kontroll. Mõnikord võib andmeid järve paigutada ilma igasuguse järelevalveta, kuna mõnedel andmetel võib olla privaatsus- ja regulatiivvajadus

Kokkuvõte:

  • Data Lake on salvestushoidla, kuhu saab salvestada suures koguses struktureeritud, poolstruktureeritud ja struktureerimata andmeid.
  • Andmete järve ehitamise peamine eesmärk on pakkuda andmeteadlastele täpsustamata vaadet andmetele.
  • Ühtne operatsioonitasand, töötlustasand, destilleerimistasand ja HDFS on Data Lake'i arhitektuuri olulised kihid
  • Andmete sisestamine, andmete salvestamine, andmete kvaliteet, andmete audit, andmete uurimine, andmete avastamine on mõned olulised Data Lake'i arhitektuuri komponendid
  • Data Lake'i kujundamisel tuleks lähtuda sellest, mis on nõutava asemel saadaval.
  • Data Lake vähendab pikaajalisi omandikulusid ja võimaldab failide säästlikku salvestamist
  • Andmete järvede suurim risk on turvalisus ja juurdepääsu kontroll. Mõnikord võib andmeid järve paigutada ilma igasuguse järelevalveta, kuna mõnedel andmetel võib olla privaatsus- ja regulatiivvajadus.

Huvitavad Artiklid...