Enne kui läheme Big Data tutvustusse, peate kõigepealt teadma
Mis on andmed?
Kogused, tähemärgid või sümbolid, millega arvuti toiminguid teostab, mida võib salvestada ja edastada elektriliste signaalidena ning salvestada magnetilistele, optilistele või mehaanilistele andmekandjatele.
Nüüd õpime Big Data tutvustust
Mis on suurandmed?
Big Data on tohutu mahuga andmete kogum, mis kasvab aja jooksul siiski hüppeliselt. Need on nii suure suuruse ja keerukusega andmed, et ükski traditsiooniline andmehaldusvahend ei suuda neid tõhusalt säilitada ega töödelda. Suured andmed on ka andmed, kuid tohutu suurusega.
Selles õpetuses saate teada,
- Mis on andmed?
- Mis on suurandmed?
- Suurandmete näited
- Suurandmete tüübid
- Suurandmete omadused
- Suurandmete töötlemise eelised
Suurandmete näited
Järgnevalt on toodud mõned Big Data näited-
New York Stock Exchange tekitab umbes ühe terabaidi uut kaubandus- andmed päevas.
Sotsiaalmeedia
Statistika näitab, et iga päev sisestatakse sotsiaalmeedia saidi Facebook andmebaasidesse 500 + terabaiti uusi andmeid . Neid andmeid saadakse peamiselt fotode ja videote üleslaadimise, sõnumivahetuse, kommentaaride esitamise jms osas.
Üks reaktiivmootor suudab 30-minutise lennuaja jooksul genereerida 10 + terabaiti andmeid . Paljude tuhandete lendudega päevas jõuab andmete genereerimine kuni paljude petabaitideni.
Suurandmete tüübid
Järgmised on suurandmete tüübid:
- Struktureeritud
- Struktureerimata
- Poolstruktureeritud
Struktureeritud
Kõiki andmeid, mida saab fikseeritud vormingus säilitada, juurde pääseda ja töödelda, nimetatakse struktureeritud andmeteks. Aja jooksul on arvutiteaduse andekus saavutanud suuremat edu selliste tehnikate väljatöötamisel, mis töötaksid sellist tüüpi andmetega (kus formaat on eelnevalt hästi teada) ja sellest ka väärtust ammutaks. Kuid tänapäeval näeme ette probleeme, kui selliste andmete suurus kasvab tohutult, tüüpilised suurused on mitme zettabaiti raevus.
Kas sa tead? 10 21 baiti, mis võrduvad ühe zettabaidiga või ühe miljardi terabaidiga, moodustavad zettabaidi .
Neid näitajaid vaadates saab hõlpsasti aru, miks nimi Big Data antakse, ja kujutate ette selle säilitamise ja töötlemisega seotud väljakutseid.
Kas sa tead? Relatsioonse andmebaasi haldussüsteemi salvestatud andmed on üks näide „struktureeritud” andmetest.
Struktureeritud andmete näited
Töötajate tabel andmebaasis on struktureeritud andmete näide
Töötaja ID | Töötaja_nimi | Sugu | Osakond | Palk_In_lacs |
---|---|---|---|---|
2365 | Rajesh Kulkarni | Mees | Rahandus | 650000 |
3398 | Pratibha Joshi | Naine | Administraator | 650000 |
7465 | Shushil Roy | Mees | Administraator | 500000 |
7500 | Shubhojit Das | Mees | Rahandus | 500000 |
7699 | Priya Sane | Naine | Rahandus | 550000 |
Struktureerimata
Kõik teadmata vormi või struktuuriga andmed klassifitseeritakse struktureerimata andmetena. Lisaks sellele, et suurus on tohutu, esitab struktureerimata teave selle töötlemise osas mitmeid probleeme, et neist väärtust saada. Tüüpiline näide struktureerimata andmetest on heterogeenne andmeallikas, mis sisaldab lihtsate tekstifailide, piltide, videote jne kombinatsiooni. Praegu on organisatsioonidel palju andmeid, kuid kahjuks ei tea nad, kuidas sellest väärtust saada, kuna need andmed on töötlemata kujul või struktureerimata.
Struktureerimata andmete näited
„Google'i otsingu” tagastatud väljund
Poolstruktureeritud
Poolstruktureeritud andmed võivad sisaldada mõlemat vormi andmeid. Võime näha poolstruktureeritud andmeid vormis struktureerituna, kuid tegelikult pole neid määratletud näiteks relatsioonide DBMS-is tabeli määratlusega. Poolstruktureeritud andmete näide on XML-failis kujutatud andmed.
Näited poolstruktureeritud andmetest
XML-faili salvestatud isikuandmed
Prashant Rao Male 35 Seema R. Female 41 Satish Mane Male 29 Subrato Roy Male 26 Jeremiah J. Male 35
Andmete kasv aastate jooksul
Pange tähele, et struktureerimata veebirakenduse andmed koosnevad logifailidest, tehinguajaloo failidest jne.
Suurandmete omadused
Suuri andmeid saab kirjeldada järgmiste omadustega:
- Köide
- Sordi
- Kiirus
- Muutlikkus
(i) Köide - nimi Big Data ise on seotud tohutu suurusega. Andmete väärtuse määramisel on andmete suurusel väga oluline roll. Samuti sõltub andmete mahust see, kas konkreetseid andmeid saab tegelikult pidada suurandmeteks või mitte. Seega on „maht“ üks omadus, mida tuleb suurandmetega tegelemisel arvesse võtta.
(ii) Variety - Big Data järgmine aspekt on selle mitmekesisus .
Variatsioon viitab nii struktureeritud kui ka struktureerimata heterogeensetele allikatele ja andmete olemusele. Varasematel päevadel olid enamus rakendusi ainsad andmeallikad arvutustabelid ja andmebaasid. Tänapäeval võetakse analüüsirakendustes arvesse ka e-kirjade, fotode, videote, jälgimisseadmete, PDF-ide, heli jms andmeid. See struktureerimata andmete mitmekesisus tekitab teatud probleeme andmete säilitamisel, kaevandamisel ja analüüsimisel.
(iii) Kiirus - mõiste „kiirus” viitab andmete genereerimise kiirusele. Kui kiiresti andmeid genereeritakse ja töödeldakse, et need vastaksid nõudmistele, määrab andmete tegeliku potentsiaali.
Big Data Velocity tegeleb andmete liikumise kiirusega sellistest allikatest nagu äriprotsessid, rakenduste logid, võrgud ja sotsiaalse meedia saidid, andurid, mobiilseadmed jne. Andmevoog on tohutu ja pidev.
(iv) Varieeruvus - see viitab ebajärjekindlusele, mida andmetel võib kohati näidata, pidurdades seega andmete tõhusaks käitlemiseks ja haldamiseks vajalikku protsessi.
Suurandmete töötlemise eelised
Suurandmete töötlemise oskus toob endaga kaasa mitmeid eeliseid, näiteks
- Ettevõtted saavad otsuste tegemisel kasutada välist luureteavet
Juurdepääs otsingumootorite ja saitide, nagu facebook, twitter, sotsiaalsetele andmetele võimaldavad organisatsioonidel oma äristrateegiaid täpsustada.
- Parem klienditeenindus
Traditsioonilised klientide tagasiside süsteemid asendatakse uute süsteemidega, mis on loodud Big Data tehnoloogiate abil. Nendes uutes süsteemides kasutatakse Big Data ja loomuliku keele töötlemise tehnoloogiaid tarbijate vastuste lugemiseks ja hindamiseks.
- Tootele / teenusele avalduva riski varajane tuvastamine, kui see on olemas
- Parem operatiivne efektiivsus
Big Data tehnoloogiaid saab kasutada uute andmete jaoks peatusala või maandumistsooni loomiseks, enne kui tuvastatakse, millised andmed tuleks andmelaosse teisaldada. Lisaks aitab selline Big Data tehnoloogiate ja andmeladu integreerimine organisatsioonil harva juurdepääsetavate andmete mahalaadimist.
Kokkuvõte
- Big Data määratlus: Big Data on määratletud kui tohutu suurusega teave. Bigdata on termin, mida kasutatakse tohutu suurusega ja siiski aja jooksul eksponentsiaalselt kasvava andmekogu kirjeldamiseks.
- Big Data analüüsi näited hõlmavad börse, sotsiaalmeedia saite, reaktiivmootoreid jne.
- Suured andmed võiksid olla 1) struktureeritud, 2) struktureerimata, 3) poolstruktureeritud
- Maht, varieeruvus, kiirus ja varieeruvus on vähe suurandmete omadusi
- Parem klienditeenindus, parem operatiivne efektiivsus, parem otsuste tegemine on mõned Bigdata eelised