Mis on Data Lake? See on arhitektuur

Mis on Data Lake?

Data Lake on salvestushoidla, kuhu saab salvestada suures koguses struktureeritud, poolstruktureeritud ja struktureerimata andmeid. See on koht, kus saab salvestada igat tüüpi andmeid oma vormingus, ilma konto suuruse või faili suhtes fikseeritud piiranguteta. See pakub suurt andmehulka, et suurendada analüütilist jõudlust ja natiivset integreerimist.

Data Lake on nagu suur konteiner, mis sarnaneb väga tõeliste järvede ja jõgedega. Nii nagu järves, kuhu tuleb mitu lisajõge, on ka andmjärves struktureeritud andmed, struktureerimata andmed, masinast masinasse, reaalajas läbi voolavad logid.

Data Lake demokratiseerib andmeid ja on kulutõhus viis kõigi organisatsiooni andmete salvestamiseks hilisemaks töötlemiseks. Uurimisanalüütik saab keskenduda andmete tähenduse mustrite leidmisele, mitte andmetele endale.

Erinevalt hierarhilisest andmetarkvaramajast, kus andmeid hoitakse failides ja kaustades, on Data järv lame arhitektuur. Kõigile andmejärve andmeelementidele antakse kordumatu identifikaator ja märgistatakse metaandmete teabe komplektiga.

Selles õpetuses saate teada

Mis on Data Lake?
Miks Data Lake?
Data Lake'i arhitektuur
Põhiandmete järve kontseptsioonid
Data Lake'i küpsusastmed
Parimad tavad Data Lake'i rakendamiseks:
Andmete järvede ja andmeladu erinevus
Data Lake kasutamise eelised ja riskid:

Miks Data Lake?

Andmete järve ehitamise peamine eesmärk on pakkuda andmeteadlastele täpsustamata vaadet andmetele.

Data Lake'i kasutamise põhjused on järgmised:

Hadoopi-laadsete salvestusmootorite kasutuselevõtuga on erineva teabe salvestamine muutunud lihtsaks. Andmeid pole vaja üle kogu ettevõtte skeemiks koos Data Lake'iga modelleerida.
Andmemahu, andmete kvaliteedi ja metaandmete suurenemisega suureneb ka analüüside kvaliteet.
Data Lake pakub ärilist agilityt
Masinõppimist ja tehisintellekti saab kasutada kasumlike ennustuste tegemiseks.
See pakub rakendusorganisatsioonile konkurentsieeliseid.
Andmete silo struktuur puudub. Data Lake annab klientidele 360-kraadise vaate ja muudab analüüsi usaldusväärsemaks.

Data Lake'i arhitektuur

Joonisel on näidatud Business Data Lake'i arhitektuur. Alumised tasemed tähistavad enamasti puhkeasendis olevaid andmeid, samal ajal kui ülemised tasemed näitavad reaalajas tehingute andmeid. See andmevoog liigub süsteemis ilma viivituseta või üldse vähe. Data Lake'i arhitektuuris on järgmised olulised astmed:

Allaneelamistase : vasakul küljel olevad astmed kujutavad andmeallikaid. Andmeid saab andmekogusse laadida partiidena või reaalajas
Insights Tier: Parempoolsed astmed esindavad uurimispoolt, kus süsteemist pärit teadmisi kasutatakse. Andmete analüüsimiseks võiks kasutada SQL-i, NoSQL-i päringuid või isegi Exceli.
HDFS on kulutõhus lahendus nii struktureeritud kui ka struktureerimata andmete jaoks. See on maandumistsoon kõigi andmete jaoks, mis on süsteemis puhkeseisundis.
Destilleerimistasand võtab andmed rehvidelt ja teisendab need lihtsamaks analüüsimiseks struktureeritud andmeteks.
Struktuuriandmete loomiseks lihtsamaks analüüsimiseks töötletakse erineva reaalajas interaktiivsete partiipõhiste analüütiliste algoritmide ja kasutajate päringute töötlemine.
Ühtne operatsioonitase reguleerib süsteemi haldamist ja jälgimist. See hõlmab auditeerimist ja oskuste haldamist, andmehaldust, töövoo haldamist.

Põhiandmete järve kontseptsioonid

Järgnevalt on toodud Data Lake'i põhikontseptsioonid, millest tuleb aru saada, et Data Lake'i arhitektuuri täielikult mõista

Andmete sisestamine

Andmete sisestamine võimaldab pistikutel saada andmeid erinevatest andmeallikatest ja laadida andmeid järve.

Andmete sisestamine toetab:

Igat tüüpi struktureeritud, poolstruktureeritud ja struktureerimata andmed.
Mitu sissevõtmist, näiteks pakk, reaalajas, ühekordne laadimine.
Mitut tüüpi andmeallikad, nagu andmebaasid, veebiserverid, e-kirjad, asjade Interneti ja FTP.

Andmekogu

Andmete salvestamine peaks olema skaleeritav, pakkuma kulutõhusat salvestamist ja võimaldama kiiret juurdepääsu andmete uurimisele. See peaks toetama erinevaid andmevorminguid.

Andmete haldamine

Andmete haldamine on organisatsioonis kasutatavate andmete kättesaadavuse, kasutatavuse, turvalisuse ja terviklikkuse haldamise protsess.

Turvalisus

Turvalisus tuleb rakendada igas Data Lake'i kihis. See algab salvestamise, maandamise ja tarbimisega. Põhivajadus on volitamata kasutajate juurdepääsu peatamine. See peaks toetama erinevaid tööriistu andmetele juurdepääsemiseks hõlpsasti navigeeritavate graafilise kasutajaliidese ja juhtpaneelidega.

Autentimine, raamatupidamine, autoriseerimine ja andmekaitse on mõned olulised andmete järve turvalisuse tunnused.

Andmete kvaliteet:

Andmete kvaliteet on Data Lake'i arhitektuuri oluline komponent. Andmeid kasutatakse ettevõtte väärtuse täpseks määramiseks. Halva kvaliteediga andmetest teadmiste väljavõtmine toob kaasa halva kvaliteediga ülevaate.

Andmete avastamine

Andmete avastamine on veel üks oluline etapp enne andmete või analüüsi ettevalmistamise alustamist. Selles etapis kasutatakse andmete mõistmise väljendamiseks sildistamistehnikat, korraldades ja tõlgendades Data Lake'i sisestatud andmeid.

Andmete audit

Kaks peamist andmeauditi ülesannet on võtmeandmekogumi muudatuste jälgimine.

Oluliste andmekogumi elementide muudatuste jälgimine
Jäädvustab, kuidas / millal / ja kes neid elemente muudab.

Andmete audit aitab hinnata riski ja nõuetele vastavust.

Andmete liin

See komponent käsitleb andmete päritolu. Peamiselt käsitletakse seda, kuhu see aja jooksul liigub ja mis sellega juhtub. See hõlbustab vigade parandamist andmeanalüüsi protsessis algusest sihtkohta.

Andmete uurimine

See on andmete analüüsi algusetapp. See aitab enne andmete uurimise alustamist tuvastada õige andmestik.

Kõik etteantud komponendid peavad tegema koostööd, et mängida olulist rolli Data Lake'i ehitamises ja hõlpsasti arenevas keskkonnas.

Data Lake'i küpsusastmed

Data Lake'i küpsusastmete määratlus on õpikutest erinev. Kuigi tuum jääb samaks. Pärast küpsust on etapi määratlus võhiku seisukohast.

1. etapp: käsitsege ja sisestage andmeid skaalal

See andmeküpsuse esimene etapp hõlmab andmete teisendamise ja analüüsimise võime parandamist. Siit peavad ettevõtete omanikud leidma tööriistad vastavalt oma oskustele, et saada rohkem andmeid ja koostada analüütilisi rakendusi.

2. etapp: analüütilise lihase ehitamine

See on teine etapp, mis hõlmab andmete teisendamise ja analüüsimise võime parandamist. Selles etapis kasutavad ettevõtted tööriistu, mis on nende oskuste jaoks kõige sobivam. Nad hakkavad hankima rohkem andmeid ja ehitama rakendusi. Siin kasutatakse ettevõtte andmelao ja andmekogu võimalusi koos.

3. etapp: EDW ja Data Lake töötavad ühtselt

See samm hõlmab andmete ja analüütika saamist võimalikult paljude inimeste kätte. Selles etapis hakkavad andmekogum ja ettevõtte andmelao liidus töötama. Mõlemad mängivad oma osa analüütikas

4. etapp: ettevõtte suutlikkus järves

Selles andmejärve küpsusastmes lisatakse Data Lake'i ettevõtte võimalused. Infohalduse, teabe olelusringi haldamise võimaluste ja metaandmete haldamise vastuvõtmine. Sellele küpsusastmele jõuavad siiski väga vähesed organisatsioonid, kuid tulevikus see arv suureneb.

Parimad tavad Data Lake'i rakendamiseks:

Arhitektuursed komponendid, nende koostoime ja tuvastatud tooted peaksid toetama algseid andmetüüpe
Data Lake'i kujundamisel tuleks lähtuda sellest, mis on nõutava asemel saadaval. Skeemi ja andmenõuet ei määratleta enne, kui sellele päringut esitatakse
Kujundus peaks juhinduma teenuse API-ga integreeritud ühekordselt kasutatavatest komponentidest.
Andmete avastamist, sisestamist, salvestamist, haldamist, kvaliteeti, teisendamist ja visualiseerimist tuleks hallata iseseisvalt.
Data Lake'i arhitektuur peaks olema kohandatud konkreetsele tööstusharule. See peaks tagama, et selle domeeni jaoks vajalikud võimalused on kujunduse lahutamatu osa
Oluline on värskelt avastatud andmeallikate kiirem pardaleminek
Data Lake aitab kohandatud haldusel maksimaalset väärtust välja tõmmata
Data Lake peaks toetama olemasolevaid ettevõtte andmete haldamise tehnikaid ja meetodeid

Andmete järve ehitamise väljakutsed:

Data Lake'is on andmemaht suurem, nii et protsess peab rohkem sõltuma programmilisest haldusest
Hõredate, puudulike ja kõikuvate andmetega on raske toime tulla
Andmekogumi ja allika laiem ulatus vajab suuremat andmete haldamist ja tuge

Andmete järvede ja andmeladu erinevus

Parameetrid	Andmete järved	Andmeladu
Andmed	Andmete järved salvestavad kõike.	Andmeladu keskendub ainult äriprotsessidele.
Töötlemine	Andmed on peamiselt töötlemata	Kõrgelt töödeldud andmed.
Andmete tüüp	See võib olla struktureerimata, poolstruktureeritud ja struktureeritud.	See on enamasti tabeli kujul ja struktuuris.
Ülesanne	Jagage andmete haldamist	Optimeeritud andmete otsimiseks
Agility	Väga kiire, konfigureerige ja konfigureerige vastavalt vajadusele.	Võrreldes Data järvega on see vähem liikuv ja fikseeritud konfiguratsiooniga.
Kasutajad	Data Lake'i kasutab enamasti Data Scientist	Äriprofessionaalid kasutavad laialdaselt andmeladu
Ladustamine	Andmete järvede disain odava ladustamise jaoks.	Kasutatakse kallist salvestusruumi, mis annab kiire reageerimisaja
Turvalisus	Pakub vähem kontrolli.	Võimaldab andmeid paremini juhtida.
EDW asendamine	Andmete järv võib olla EDW allikas	Täiendab EDW-d (ei asenda)
Skeem	Lugemisskeem (eelnevalt skeeme pole)	Kirjutamise skeem (eelnevalt määratletud skeemid)
Andmetöötlus	Aitab uute andmete kiirel sisestamisel.	Uue sisu tutvustamine on aeganõudev.
Andmete täpsus	Andmed on üksikasjalikud või üksikasjalikud.	Andmed kokkuvõtlikult või kokkuvõtlikult üksikasjalikult.
Tööriistad	Oskab kasutada avatud lähtekoodiga tööriistu nagu Hadoop / Map Reduce	Enamasti kommertsvahendid.

Data Lake kasutamise eelised ja riskid:

Siin on mõned peamised eelised Data Lake'i kasutamisel:

Aitab täielikult toote ioniseeriva ja täiustatud analüüsi puhul
Pakub kulutõhusat mastaapsust ja paindlikkust
Pakub väärtust piiramatut tüüpi andmetest
Vähendab pikaajalisi omandikulusid
Võimaldab failide majanduslikku salvestamist
Kiiresti kohandatav muudatustega
Andmete järve peamine eelis on erinevate sisuallikate tsentraliseerimine
Kasutajad erinevatest osakondadest võivad olla hajutatud üle kogu maailma, neil on andmetele paindlik juurdepääs

Data Lake'i kasutamise oht:

Mõne aja pärast võib Data Lake kaotada asjakohasuse ja hoogu
Data Lake'i kujundamisel on suurem summaoht
Struktureerimata andmed võivad viia valitsuseta kaoseni, kasutuskõlbmatute andmeteni, erinevate ja keerukate tööriistadeni, kogu ettevõtet hõlmava koostöö, ühtse, järjepideva ja ühise koostööni
See suurendab ka ladustamise ja arvutamise kulusid
Teistelt, kes on andmetega töötanud, pole mingil moel võimalik saada teadmisi, kuna varasemate analüütikute leidude sugupuu kohta pole ülevaadet
Andmete järvede suurim risk on turvalisus ja juurdepääsu kontroll. Mõnikord võib andmeid järve paigutada ilma igasuguse järelevalveta, kuna mõnedel andmetel võib olla privaatsus- ja regulatiivvajadus

Kokkuvõte:

Data Lake on salvestushoidla, kuhu saab salvestada suures koguses struktureeritud, poolstruktureeritud ja struktureerimata andmeid.
Andmete järve ehitamise peamine eesmärk on pakkuda andmeteadlastele täpsustamata vaadet andmetele.
Ühtne operatsioonitasand, töötlustasand, destilleerimistasand ja HDFS on Data Lake'i arhitektuuri olulised kihid
Andmete sisestamine, andmete salvestamine, andmete kvaliteet, andmete audit, andmete uurimine, andmete avastamine on mõned olulised Data Lake'i arhitektuuri komponendid
Data Lake'i kujundamisel tuleks lähtuda sellest, mis on nõutava asemel saadaval.
Data Lake vähendab pikaajalisi omandikulusid ja võimaldab failide säästlikku salvestamist
Andmete järvede suurim risk on turvalisus ja juurdepääsu kontroll. Mõnikord võib andmeid järve paigutada ilma igasuguse järelevalveta, kuna mõnedel andmetel võib olla privaatsus- ja regulatiivvajadus.

Mis on Data Lake? See on arhitektuur

Lang L: none (table-of-contents):

Mis on Data Lake?

Miks Data Lake?

Data Lake'i arhitektuur

Põhiandmete järve kontseptsioonid

Andmete sisestamine

Andmekogu

Andmete haldamine

Turvalisus

Andmete kvaliteet:

Andmete avastamine

Andmete audit

Andmete liin

Andmete uurimine

Data Lake'i küpsusastmed

1. etapp: käsitsege ja sisestage andmeid skaalal

2. etapp: analüütilise lihase ehitamine

3. etapp: EDW ja Data Lake töötavad ühtselt

4. etapp: ettevõtte suutlikkus järves

Parimad tavad Data Lake'i rakendamiseks:

Andmete järvede ja andmeladu erinevus

Data Lake kasutamise eelised ja riskid:

Kokkuvõte:

Kuidas alla laadida & Installige Rstudio: Anaconda Windowsi / Maci

Aritmeetika & Loogilised operaatorid: R andmetüübid koos näitega

Numpy.dot () Pythonis - Numpy Dot toote funktsioon & Näide

R-i silmuse jaoks koos loendi ja maatriksi näidetega

R andmeraam: kuidas luua, lisada, valida & Alamhulk

Enne helistamist kontrollige, kas funktsioon on olemas CSS-trikid

Kontrollige, kas arv on paaris / paaritu - CSS-trikid

Pange komaväärtused numbritesse - CSS-trikid

Selge väli fookuses - CSS-trikid

Kommentaarid JavaScripti - CSS-trikid

Määra iPhone'i järjehoidjaikoon - CSS-trikid

Peatage IE lehe laadimise värelus - CSS-trikid

Standardne loendis navigeerimine - CSS-trikid

Ühised DOCTYPES - CSS-trikid

Akronüümide näpunäited - CSS-trikid