Mis on ETL?
ETL on protsess, mis eraldab andmed erinevatest lähtesüsteemidest, seejärel teisendab need (näiteks arvutuste, liitmike jms rakendamine) ja lõpuks laadib andmed andmelao süsteemi. ETL-i täielik vorm on ekstraktimine, teisendamine ja laadimine.
On ahvatlev mõelda, et andmelao loomine on lihtsalt andmete hankimine mitmest allikast ja laadimine andmelao andmebaasi. See pole tõest kaugel ja nõuab keerukat ETL-protsessi. ETL-protsess nõuab erinevate sidusrühmade, sealhulgas arendajate, analüütikute, testijate, tippjuhtide aktiivset sisendit ja on tehniliselt keeruline.
Andmelao süsteem peab otsustajate jaoks mõeldud tööriista väärtuse säilitamiseks muutuma koos ärimuutustega. ETL on andmeladusüsteemi korduv tegevus (iga päev, nädal, kuu) ja see peab olema kiire, automatiseeritud ja hästi dokumenteeritud.
Selles ETL-i õpetuses saate teada
- Mis on ETL?
- Miks vajate ETL-i?
- ETL-protsess andmeladudes
- 1. etapp. Ekstraheerimine
- 2. samm) teisendamine
- Samm 3) Laadimine
- ETL-i tööriistad
- Parimate tavade ETL-protsess
Miks vajate ETL-i?
ETL-i vastuvõtmisel organisatsioonis on palju põhjuseid:
- See aitab ettevõtetel analüüsida oma äriandmeid kriitiliste äriotsuste tegemiseks.
- Tehingute andmebaasid ei suuda vastata keerukatele äriküsimustele, millele saab vastata ETL-i näitel.
- Andmehoidla pakub ühist andmehoidlat
- ETL pakub meetodit andmete teisaldamiseks erinevatest allikatest andmelao.
- Andmeallikate muutumisel värskendatakse andmeladu automaatselt.
- Hästi läbimõeldud ja dokumenteeritud ETL-süsteem on Data Warehouse'i projekti õnnestumiseks peaaegu hädavajalik.
- Lubage andmete teisendamise, liitmise ja arvutamise reeglite kontrollimine.
- ETL-protsess võimaldab võrrelda lähteandmete ja sihtsüsteemi valimi andmeid.
- ETL-protsess võib läbi viia keerukaid teisendusi ja nõuab andmete salvestamiseks lisapiirkonda.
- ETL aitab andmeid üle viia andmeladu. Teisendage erinevatesse vormingutesse ja tüüpidesse, et järgida ühte järjepidevat süsteemi.
- ETL on etteantud protsess algandmetele juurdepääsu ja sihtandmebaasi manipuleerimise jaoks.
- Andmelaos olev ETL pakub ärile sügavat ajaloolist konteksti.
- See aitab tõsta tootlikkust, kuna see kodeerib ja kasutab uuesti tehnilisi oskusi vajamata.
ETL-protsess andmeladudes
ETL on kolmeastmeline protsess

1. etapp. Ekstraheerimine
Selles ETL-arhitektuuri etapis eraldatakse andmed lähtesüsteemist lavastusalasse. Ümberkujundamised tehakse staadiumis, nii et allikasüsteemi jõudlus ei halveneks. Samuti, kui rikutud andmed kopeeritakse otse allikast andmelao andmebaasi, on väljakutseks tagasivõtmine. Lavastusala annab võimaluse kinnitatud andmed valideerida enne nende liikumist andmelattu.
Andmeladu peab integreerima erinevaid süsteeme
DBMS, riistvara, operatsioonisüsteemid ja sideprotokollid. Allikad võivad hõlmata selliseid pärandrakendusi nagu suurarvutid, kohandatud rakendused, kontaktpunktiseadmed nagu sularahaautomaat, kõne lülitid, tekstifailid, arvutustabelid, ERP, muu hulgas müüjate, partnerite andmed.
Seega on enne andmete füüsilist väljavõtmist ja laadimist vaja loogilist andmekaarti. See andmekaart kirjeldab suhet allikate ja sihtandmete vahel.
Kolm andmete eraldamise meetodit:
- Täielik ekstraheerimine
- Osaline väljavõte - värskendusteateta.
- Osaline väljavõte - värskendusteatisega
Sõltumata kasutatud meetodist ei tohiks ekstraheerimine mõjutada allikasüsteemide jõudlust ja reageerimisaega. Need allikasüsteemid on reaalajas tootmise andmebaasid. Mis tahes aeglustumine või lukustamine võib mõjutada ettevõtte tulemusi.
Mõned valideerimised tehakse ekstraktimisel:
- Allikaandmetega kirjete ühitamine
- Veenduge, et rämpsposti / soovimatuid andmeid pole laaditud
- Andmetüübi kontroll
- Eemaldage igat tüüpi duplikaadid / killustatud andmed
- Kontrollige, kas kõik klahvid on paigas või mitte
2. samm) teisendamine
Lähteserverist eraldatud andmed on toored ja pole algsel kujul kasutatavad. Seetõttu tuleb see puhastada, kaardistada ja ümber kujundada. Tegelikult on see peamine samm, kus ETL-protsess lisab väärtust ja muudab andmeid nii, et oleks võimalik luua ülevaatlikke BI-aruandeid.
See on üks olulisi ETL-i kontseptsioone, kus rakendate eraldatud andmetele hulga funktsioone. Andmeid, mis ei vaja muundamist, nimetatakse otsese liikumise või andmete edastamiseks .
Teisendusetapis saate teha andmetele kohandatud toiminguid. Näiteks kui kasutaja soovib müügisumma tulu, mida pole andmebaasis. Või kui tabeli ees- ja perekonnanimi on erinevates veergudes. Enne laadimist on võimalik neid liita.

Järgnevalt on toodud andmete terviklikkuse probleemid:
- Sama isiku nagu Jon, John jne erinev kirjapilt
- Ettevõtte nime tähistamiseks on mitu võimalust, näiteks Google, Google Inc.
- Erinevate nimede kasutamine nagu Cleaveland, Cleveland.
- Võib juhtuda, et sama kliendi jaoks luuakse erinevate rakenduste abil erinevad kontonumbrid.
- Mõnedes andmetes jäävad nõutavad failid tühjaks
- POS-is käsitsi sisestamisel kogutud kehtetu toode võib põhjustada vigu.
Valideerimine toimub selles etapis
- Filtreerimine - laadimiseks valige ainult teatud veerud
- Reeglite ja otsingutabelite kasutamine andmete standardimiseks
- Tähemärkide teisendamine ja kodeerimise käitlemine
- Mõõtühikute konverteerimine, näiteks kuupäeva ja kellaaja konverteerimine, valuuta konverteerimine, arvuline teisendamine jne.
- Andmekünnise valideerimise kontroll. Näiteks ei tohi vanus olla rohkem kui kaks numbrit.
- Andmevoo valideerimine staadiumist vahepealsete tabelite juurde.
- Kohustuslikke välju ei tohi tühjaks jätta.
- Puhastamine (näiteks NULL-i kaardistamine 0-ni või soo-isendi täht "M" ja naise "F" -iks jne)
- Jagage veerg mitmekordseks ja mitme veeru ühendamine üheks veeruks.
- Ridade ja veergude üleviimine
- Andmete ühendamiseks kasutage otsinguid
- Mis tahes keeruka andmete valideerimise abil (nt kui rea kaks esimest veergu on tühjad, lükkab see rea automaatselt töötlemiseks tagasi)
Samm 3) Laadimine
Andmete laadimine sihtandmebaasi andmebaasi on ETL-protsessi viimane etapp. Tüüpilises andmelaos tuleb tohutu andmemaht laadida suhteliselt lühikese aja jooksul (ööd). Seega peaks laadimisprotsess jõudluse jaoks olema optimeeritud.
Koormuse ebaõnnestumise korral tuleks taastemehhanismid konfigureerida nii, et taaskäivitatakse rikke hetkest ilma andmete terviklikkuse kadumiseta. Andmelao administraatorid peavad jälgima, jätkama, laadimisi tühistama vastavalt kehtivale serveri jõudlusele.
Laadimise tüübid:
- Esialgne laadimine - kõigi andmelao tabelite täitmine
- Inkrementaalne koormus - käimasolevate muudatuste rakendamine vastavalt vajadusele perioodiliselt.
- Full Värskenda -erasing sisu ühe või mitme lauad ja pealelaadimisel värske andmeid.
Laadi kontrollimine
- Veenduge, et võtmevälja andmed pole puuduvad ega tühjad.
- Testige sihttabelite põhjal modelleerimisvaateid.
- Kontrollige, kas kombineeritud väärtused ja arvutatud mõõtmed on olemas.
- Andmete kontroll nii dimensioonitabelis kui ka ajalootabelis.
- Kontrollige laaditud faktide ja mõõtude tabeli BI aruandeid.
ETL-i tööriistad
Turul on palju andmesalvestuse tööriistu. Siin on mõned silmapaistvamad:
1. MarkLogic:
MarkLogic on andmehoidla lahendus, mis muudab andmete integreerimise ettevõtte funktsioonide hulga abil lihtsamaks ja kiiremaks. See võib pärida erinevat tüüpi andmeid, näiteks dokumente, seoseid ja metaandmeid.
https://www.marklogic.com/product/getting-started/
2. Oracle:
Oracle on valdkonna juhtiv andmebaas. See pakub laia valikut andmelao lahendusi nii kohapeal kui ka pilves. See aitab optimeerida klientide kogemusi, suurendades tegevuse efektiivsust.
https://www.oracle.com/index.html
3. Amazon RedShift:
Amazon Redshift on tööriist Datawarehouse. See on lihtne ja kulutõhus tööriist igat tüüpi andmete analüüsimiseks standardsete SQL-i ja olemasolevate BI-tööriistade abil. Samuti võimaldab see keerukaid päringuid käivitada struktureeritud andmete petabaitide ulatuses.
https://aws.amazon.com/redshift/?nc2=h_m1
Siin on täielik loend kasulikest andmelao tööriistadest.
Parimate tavade ETL-protsess
ETL-protsessi sammude parimad tavad on järgmised.
Ärge kunagi proovige kõiki andmeid puhastada:
Iga organisatsioon sooviks, et kõik andmed oleksid puhtad, kuid enamik neist pole valmis ootama maksma või pole valmis ootama. Selle kõige puhastamine võtaks lihtsalt liiga kaua aega, seega on parem mitte proovida kõiki andmeid puhastada.
Ärge kunagi puhastage midagi:
Plaanige alati midagi puhastada, sest andmeladu ehitamise suurim põhjus on puhtamate ja usaldusväärsemate andmete pakkumine.
Määrake andmete puhastamise hind:
Enne kõigi määrdunud andmete puhastamist on oluline kindlaks määrata iga määrdunud andmeelemendi puhastuskulu.
Päringu töötlemise kiirendamiseks on teil abivaated ja indeksid.
Salvestamiskulude vähendamiseks salvestage kokkuvõtlikud andmed kettalintidele. Samuti on vajalik kompromiss salvestatavate andmete mahu ja nende üksikasjaliku kasutamise vahel. Salvestamiskulude vähendamiseks kompromiss andmete täpsuse tasemel.
Kokkuvõte:
- ETL tähendab ekstraktimist, teisendamist ja laadimist.
- ETL pakub meetodit andmete teisaldamiseks erinevatest allikatest andmelao.
- Esimeses etapis eraldatakse andmed lähtekoodisüsteemist lavastusalasse.
- Teisendusetapis puhastatakse ja teisendatakse allikast eraldatud andmed.
- Andmete laadimine sihtandmete lattu on ETL-protsessi viimane etapp.