Andmelao arhitektuur, kontseptsioonid ja komponendid

Lang L: none (table-of-contents):

Anonim

Andmelao kontseptsioonid

Andmelao põhimõte on hõlbustada ettevõtte jaoks tõe ühtset versiooni otsuste tegemisel ja prognoosimisel. Andmeladu on infosüsteem, mis sisaldab ajaloolisi ja kommutatiivseid andmeid ühest või mitmest allikast. Andmelao kontseptsioonid lihtsustavad organisatsioonide aruandlus- ja analüüsiprotsessi.

Andmelao omadused

Andmelao kontseptsioonidel on järgmised omadused:

  • Ainele orienteeritud
  • Integreeritud
  • Ajavariant
  • Mittelenduv

Ainele orienteeritud

Andmeladu on teemakeskne, kuna see pakub ettevõtte käimasoleva tegevuse asemel teavet teema kohta. Need teemad võivad olla müük, turundus, levitamine jne.

Andmeladu ei keskendu kunagi käimasolevatele toimingutele. Selle asemel pannakse rõhku otsuste tegemiseks andmete modelleerimisele ja analüüsimisele . Samuti pakub see konkreetse teema kohta lihtsat ja ülevaatlikku ülevaadet, jättes välja andmed, mis pole otsustamisprotsessi toetamiseks kasulikud.

Integreeritud

Andmelaos tähendab integreerimine ühise mõõtühiku loomist kõigi sarnaste andmete jaoks erinevast andmebaasist. Andmeid tuleb Andmehoidlas hoida ka ühisel ja üldtunnustatud viisil.

Andmeladu arendatakse integreerides andmeid erinevatest allikatest, nagu suurarvuti, relatsiooniandmebaasid, lamefailid jne. Lisaks peab see hoidma järjepidevaid nimetamisviise, vormingut ja kodeerimist.

See integreerimine aitab andmeid tõhusalt analüüsida. Tuleb tagada järjepidevus nimetamise tavades, atribuutide mõõtmetes, kodeerimisstruktuuris jne. Vaatleme järgmist näidet:

Ülaltoodud näites on kolm erinevat rakendust siltidega A, B ja C. Nendesse rakendustesse salvestatud teave on Sugu, Kuupäev ja Saldo. Kuid iga rakenduse andmed salvestatakse erineval viisil.

  • Rakenduses Sooleväli salvestavad loogilised väärtused nagu M või F
  • Rakenduses B on soo väli arvuline väärtus,
  • Rakenduse C rakenduses on soo väli salvestatud tähemärgi kujul.
  • Sama lugu on kuupäeva ja saldoga

Kuid pärast teisendamist ja puhastamist salvestatakse kõik need andmed ühisvormingus andmelaos.

Ajavariant

Andmelao ajahorisont on operatsioonisüsteemidega võrreldes üsna ulatuslik. Andmelaos kogutud andmeid tunnustatakse konkreetse perioodiga ja need pakuvad teavet ajaloolisest seisukohast. See sisaldab otseselt või kaudselt aja elementi.

Üks selline koht, kus Datawarehouse'i andmete kuvamise aja dispersioon on kirje võtme struktuuris. Igal DW-s sisalduval primaarvõtmel peaks olema kas kaudselt või otseselt aja element. Nagu päev, nädalakuu jne.

Veel üks ajahälbe aspekt on see, et kui andmed on lattu sisestatud, ei saa neid enam värskendada ega muuta.

Mittelenduv

Andmelao on samuti püsimatu, st kui uusi andmeid sinna sisestatakse, varasemaid andmeid ei kustutata.

Andmed on kirjutuskaitstud ja neid värskendatakse perioodiliselt. See aitab analüüsida ka ajaloolisi andmeid ning mõista, mis ja millal juhtus. See ei nõua tehinguprotsessi, taastamise ja samaaegsuse kontrollimise mehhanisme.

Operatsioonirakenduse keskkonnas tehtavad tegevused, nagu kustutamine, värskendamine ja sisestamine, jäetakse andmelao keskkonnas välja. Andmehoidlas tehakse ainult kahte tüüpi andmetoiminguid

  1. Andmete laadimine
  2. Juurdepääs andmetele

Siin on mõned suured erinevused rakenduste ja andmeladu vahel

Operatiivne rakendus Andmeladu
Kompleksne programm peab olema kodeeritud, tagamaks, et andmete täiendamise protsessid säilitaksid lõpptoote kõrge terviklikkuse. Selliseid probleeme ei juhtu, kuna andmeid ei värskendata.
Andmed paigutatakse minimaalseks üleliigsuse tagamiseks normaliseeritud kujul. Andmeid ei salvestata normaliseeritud kujul.
Tehingute, andmete taastamise, tagasivõtmise ja lahendamise probleemide toetamiseks vajalik tehnoloogia, kuna selle ummikseis on üsna keeruline. See pakub tehnoloogias suhteliselt lihtsat.

Andmelao arhitektuur

Andmelao arhitektuur on keeruline, kuna see on infosüsteem, mis sisaldab ajaloolisi ja kommutatiivseid andmeid mitmest allikast. Andmeladu kihtide koostamiseks on 3 lähenemisviisi: üheastmeline, kahetasandiline ja kolmetasandiline. Seda andmelao 3-astmelist arhitektuuri selgitatakse allpool.

Üheastmeline arhitektuur

Ühe kihi eesmärk on minimeerida salvestatud andmete hulka. Selle eesmärk on eemaldada andmete koondamine. Seda arhitektuuri praktikas sageli ei kasutata.

Kaheastmeline arhitektuur

Kahekihiline arhitektuur on üks andmelao kihtidest, mis eraldab füüsiliselt saadaolevad allikad ja andmelao. See arhitektuur ei ole laiendatav ja ei toeta ka suurt hulka lõppkasutajaid. Sellel on võrgupiirangute tõttu ka ühenduvusprobleeme.

Kolmetasandiline andmeladu arhitektuur

See on enimkasutatav andmeladu arhitektuur.

See koosneb ülemisest, keskmisest ja alumisest astmest.

  1. Alumine tasand: alumise astmena Datawarehouse'i serverite andmebaas. Tavaliselt on see relatsiooniline andmebaasisüsteem. Andmed puhastatakse, teisendatakse ja laaditakse sellesse kihti tagatööriistade abil.
  2. Keskmine aste: andmelao keskmine tase on OLAP-server, mis on rakendatud kas ROLAP- või MOLAP-mudeli abil. Kasutaja jaoks esitab see rakendustasand andmebaasi abstraktse vaate. See kiht toimib ka vahendajana lõppkasutaja ja andmebaasi vahel.
  3. Tipptase: ülemine tasand on esiotsa kliendikiht. Tipptase on tööriistad ja API, mille ühendate ja saate andmeid andmelaost. See võib olla päringutööriistad, aruandlustööriistad, hallatud päringutööriistad, analüüsi tööriistad ja andmekaevandustööriistad.

Andmelao komponendid

Saame teada andmelao komponentidest ja andmelao arhitektuurist koos skeemiga, nagu allpool näidatud:

Andmelao arhitektuur

Andmehoidla põhineb RDBMS-serveril, mis on keskne teabehoidla, mis on ümbritsetud mõningate peamiste andmelao komponentidega, et muuta kogu keskkond funktsionaalseks, hallatavaks ja juurdepääsetavaks.

Andmelao komponente on peamiselt viis:

Andmelao andmebaas

Keskne andmebaas on andmeladukeskkonna alus. See andmebaas on rakendatud RDBMS-tehnoloogial. Kuigi sellist rakendamist piirab asjaolu, et traditsiooniline RDBMS-süsteem on optimeeritud tehingute andmebaaside töötlemiseks ja mitte andmeladustamiseks. Näiteks on ajutised päringud, mitme tabeliga liitumised, agregaadid ressursimahukad ja aeglustavad jõudlust.

Seega kasutatakse andmebaasi jaoks alternatiivseid lähenemisviise, nagu allpool loetletud -

  • Andmelaos on relatsioonandmebaasid paigutatud paralleelselt, et võimaldada mastaapsust. Paralleelsed relatsioonandmebaasid võimaldavad ka jagatud mälu või jagamatu mitte midagi mudelit mitmesugustes mitme protsessori konfiguratsioonides või massiliselt paralleelsetes protsessorites.
  • Relatsioonitabeli skaneerimisest möödumiseks ja kiiruse parandamiseks kasutatakse uusi indeksistruktuure.
  • Mitmemõõtmelise andmebaasi (MDDB) kasutamine relatsiooniliste andmeladude mudelite tõttu seatud piirangute ületamiseks. Näide: Essbase Oracle'ilt.

Hankimise, hankimise, puhastamise ja teisendamise tööriistad (ETL)

Andmete hankimise, teisendamise ja üleviimise tööriistu kasutatakse kõigi teisenduste, kokkuvõtete ja kõigi muudatuste tegemiseks, mis on vajalikud andmete ühtsesse vormingusse muutmiseks andmelaos. Neid nimetatakse ka väljavõtte, teisendamise ja laadimise (ETL) tööriistadeks.

Nende funktsionaalsus hõlmab järgmist:

  • Andmed anonüümseks vastavalt regulatiivsetele sätetele.
  • Operatiivandmebaasides soovimatute andmete kõrvaldamine andmelaosse laadimisest.
  • Otsige ja asendage erinevatest allikatest saabuvate andmete üldnimesid ja määratlusi.
  • Kokkuvõtete ja tuletatud andmete arvutamine
  • Andmete puudumisel lisage need vaikeseadetega.
  • Mitmest andmeallikast saabuvate korduvate andmete dubleerimine.

Need väljavõtte, teisendamise ja laadimise tööriistad võivad genereerida croni töid, tausttöid, Coboli programme, shelliskripte jms, mis regulaarselt värskendavad andmeid andmelaos. Need tööriistad on abiks ka metaandmete säilitamisel.

Need ETL-i tööriistad peavad toime tulema andmebaaside ja andmete heterogeensuse probleemidega.

Metaandmed

Nimi Meta Data soovitab mõningaid kõrgetasemelisi tehnoloogilisi andmeladustamise kontseptsioone. Kuid see on üsna lihtne. Metaandmed on andmed andmete kohta, mis määravad andmelao. Seda kasutatakse andmelao ehitamiseks, hooldamiseks ja haldamiseks.

Andmelao arhitektuuris on metaandmetel oluline roll, kuna need määravad andmelao andmete allika, kasutamise, väärtused ja omadused. Samuti määratletakse, kuidas andmeid saab muuta ja töödelda. See on tihedalt seotud andmelaoga.

Näiteks võib müügi andmebaasi rida sisaldada järgmist:

4030 KJ732 299.90

Need on mõttetud andmed seni, kuni me ei pea nõu Metaga, kes ütleb meile, et see oli

  • Mudeli number: 4030
  • Müügiesindaja ID: KJ732
  • Müügisumma kokku 299,90 dollarit

Seetõttu on metaandmed olulised koostisosad andmete muundamisel teadmisteks.

Metaandmed aitavad vastata järgmistele küsimustele

  • Milliseid tabeleid, atribuute ja võtmeid sisaldab andmeladu?
  • Kust andmed pärinesid?
  • Mitu korda andmeid uuesti laaditakse?
  • Milliseid teisendusi puhastamisega rakendati?

Metaandmeid saab liigitada järgmistesse kategooriatesse:

  1. Tehnilised metaandmed: sedalaadi metaandmed sisaldavad teavet lao kohta, mida kasutavad andmeladu kujundajad ja administraatorid.
  2. Ettevõtte metaandmed : sedalaadi metaandmed sisaldavad üksikasju, mis annavad lõppkasutajatele võimaluse hõlpsasti mõista andmelattu salvestatud teavet.

Päringu tööriistad

Andmeladustamise üks peamisi eesmärke on anda ettevõtetele teavet strateegiliste otsuste langetamiseks. Päringutööriistad võimaldavad kasutajatel andmelao süsteemiga suhelda.

Need tööriistad jagunevad nelja erinevasse kategooriasse:

  1. Päringu- ja aruandlustööriistad
  2. Rakenduste arendamise tööriistad
  3. Andmekaevandamise tööriistad
  4. OLAP-i tööriistad

1. Päringu- ja aruandlustööriistad:

Päringu- ja aruandlustööriistu saab veel jagada

  • Aruandlustööriistad
  • Hallatud päringutööriistad

Aruandlustööriistad:

Aruandlustööriistu saab veel jagada tootearuandluse tööriistadeks ja töölauaaruannete kirjutajateks.

  1. Aruannete kirjutajad: selline aruandlustööriist on tööriist, mis on mõeldud lõpptarbijatele nende analüüsimiseks.
  2. Tootmisaruandlus: sellised tööriistad võimaldavad organisatsioonidel luua regulaarselt tegevusaruandeid. Samuti toetab see mahukaid pakkimistöid, näiteks printimist ja arvutamist. Mõned populaarsed aruandlustööriistad on Brio, äriobjektid, Oracle, PowerSoft, SAS-i instituut.

Hallatud päringutööriistad:

Sellised juurdepääsutööriistad aitavad lõppkasutajatel lahendada andmebaasi ja SQL-i ning andmebaasi struktuuri tõrkeid, lisades metakihi kasutajate ja andmebaasi vahele.

2. Rakenduse arendamise tööriistad:

Mõnikord ei rahulda sisseehitatud graafilised ja analüütilised tööriistad organisatsiooni analüütilisi vajadusi. Sellistel juhtudel töötatakse kohandatud aruanded välja rakenduste arendamise tööriistade abil.

3. Andmekaevandamise tööriistad:

Andmekaevandamine on protsess, mille käigus avastatakse palju sisulisi uusi seoseid, patente ja suundumusi, kaevandades palju andmeid. Selle protsessi automaatseks muutmiseks kasutatakse andmekaevandamise tööriistu.

4. OLAP-i tööriistad:

Need tööriistad põhinevad mitmemõõtmelise andmebaasi kontseptsioonidel. See võimaldab kasutajatel andmeid analüüsida keerukate ja keerukate mitmemõõtmeliste vaadete abil.

Andmeladu Bus Arhitektuur

Andmelao buss määrab teie laos oleva andmevoo. Andmevoo andmevoo võib liigitada sissevoolu, ülesvoolu, allavoolu, väljavoolu ja metavoogudeks.

Andmesiini väljatöötamisel tuleb arvestada jagatud mõõtmetega, faktidega kogu andmemargis.

Data Marts

Data mart on juurdepääsukiht, mida kasutatakse andmete kasutajate kätte saamiseks. Seda esitletakse suurema andmevaru võimalusena, kuna selle ehitamine võtab vähem aega ja raha. Siiski ei ole olemas standardset määratlust, et andmemarginaal on inimeselt erinev.

Lihtsa sõnaga Data mart on andmelao tütarettevõte. Andmemärki kasutatakse andmete jaotamiseks, mis on loodud konkreetse kasutajagrupi jaoks.

Andmekaardid võiks luua samas andmebaasis nagu Datawarehouse või füüsiliselt eraldatud andmebaas.

Andmelao arhitektuuri parimad tavad

Andmelao arhitektuuri kujundamiseks peate järgima allpool toodud parimaid tavasid:

  • Kasutage andmelao mudeleid, mis on optimeeritud teabe otsimiseks, mis võib olla dimensioonirežiim, denormaliseeritud või hübriidne.
  • Valige Data Warehouse'is sobiv ülalt alla ja alt üles lähenemisviis
  • Peate tagama, et andmeid töödeldakse kiiresti ja täpselt. Samal ajal peaksite kasutama lähenemisviisi, mis koondab andmed tõe ühtsesse versiooni.
  • Kujundage hoolikalt andmelao andmete hankimise ja puhastamise protsess.
  • Kujundage MetaData arhitektuur, mis võimaldab metaandmeid Data Warehouse'i komponentide vahel jagada
  • Kaaluge ODS-mudeli rakendamist, kui teabe otsimise vajadus on andmete võtmise püramiidi põhjas või kui juurdepääsuks on vaja mitu operatiivset allikat.
  • Tuleks veenduda, et andmemudel on integreeritud, mitte ainult konsolideeritud. Sel juhul peaksite kaaluma 3NF-i andmemudelit. See sobib ideaalselt ka ETL-i ja andmete puhastamise tööriistade hankimiseks

Kokkuvõte:

  • Andmeladu on infosüsteem, mis sisaldab ajaloolisi ja kommutatiivseid andmeid ühest või mitmest allikast. Need allikad võivad olla traditsiooniline andmeladu, pilvandmete ladu või virtuaalne andmeladu.
  • Andmeladu on subjektile orienteeritud, kuna see pakub teavet subjekti kohta organisatsiooni käimasolevate toimingute asemel.
  • Andmehoidlas tähendab integreerimine ühise mõõtühiku loomist kõigi sarnaste andmete jaoks erinevatest andmebaasidest
  • Andmelao on samuti püsimatu, st kui uusi andmeid sinna sisestatakse, varasemaid andmeid ei kustutata.
  • Andmehoidla on ajavariant, kuna DW-s olevate andmete säilivusaeg on kõrge.
  • Data Warehouse'i arhitektuuris on peamiselt 5 komponenti: 1) andmebaas 2) ETL-i tööriistad 3) metaandmed 4) päringuvahendid 5) DataMarts
  • Need on neli peamist päringuvahendite kategooriat 1. Päringud ja aruandlus, tööriistad 2. Rakenduse arendamise tööriistad, 3. Andmekaevanduse tööriistad 4. OLAP-i tööriistad
  • Andmete hankimise, teisendamise ja üleviimise tööriistu kasutatakse kõigi teisenduste ja kokkuvõtete tegemiseks.
  • Andmelao arhitektuuris on metaandmetel oluline roll, kuna need määravad andmelao andmete allika, kasutamise, väärtused ja omadused.