Mis on SUURED ANDMED? Sissejuhatus, tüübid, omadused, näide

Lang L: none (table-of-contents):

Anonim

Enne kui läheme Big Data tutvustusse, peate kõigepealt teadma

Mis on andmed?

Kogused, tähemärgid või sümbolid, millega arvuti toiminguid teostab, mida võib salvestada ja edastada elektriliste signaalidena ning salvestada magnetilistele, optilistele või mehaanilistele andmekandjatele.

Nüüd õpime Big Data tutvustust

Mis on suurandmed?

Big Data on tohutu mahuga andmete kogum, mis kasvab aja jooksul siiski hüppeliselt. Need on nii suure suuruse ja keerukusega andmed, et ükski traditsiooniline andmehaldusvahend ei suuda neid tõhusalt säilitada ega töödelda. Suured andmed on ka andmed, kuid tohutu suurusega.

Selles õpetuses saate teada,

  • Mis on andmed?
  • Mis on suurandmed?
  • Suurandmete näited
  • Suurandmete tüübid
  • Suurandmete omadused
  • Suurandmete töötlemise eelised

Suurandmete näited

Järgnevalt on toodud mõned Big Data näited-

New York Stock Exchange tekitab umbes ühe terabaidi uut kaubandus- andmed päevas.

Sotsiaalmeedia

Statistika näitab, et iga päev sisestatakse sotsiaalmeedia saidi Facebook andmebaasidesse 500 + terabaiti uusi andmeid . Neid andmeid saadakse peamiselt fotode ja videote üleslaadimise, sõnumivahetuse, kommentaaride esitamise jms osas.

Üks reaktiivmootor suudab 30-minutise lennuaja jooksul genereerida 10 + terabaiti andmeid . Paljude tuhandete lendudega päevas jõuab andmete genereerimine kuni paljude petabaitideni.

Suurandmete tüübid

Järgmised on suurandmete tüübid:

  1. Struktureeritud
  2. Struktureerimata
  3. Poolstruktureeritud

Struktureeritud

Kõiki andmeid, mida saab fikseeritud vormingus säilitada, juurde pääseda ja töödelda, nimetatakse struktureeritud andmeteks. Aja jooksul on arvutiteaduse andekus saavutanud suuremat edu selliste tehnikate väljatöötamisel, mis töötaksid sellist tüüpi andmetega (kus formaat on eelnevalt hästi teada) ja sellest ka väärtust ammutaks. Kuid tänapäeval näeme ette probleeme, kui selliste andmete suurus kasvab tohutult, tüüpilised suurused on mitme zettabaiti raevus.

Kas sa tead? 10 21 baiti, mis võrduvad ühe zettabaidiga või ühe miljardi terabaidiga, moodustavad zettabaidi .

Neid näitajaid vaadates saab hõlpsasti aru, miks nimi Big Data antakse, ja kujutate ette selle säilitamise ja töötlemisega seotud väljakutseid.

Kas sa tead? Relatsioonse andmebaasi haldussüsteemi salvestatud andmed on üks näide „struktureeritud” andmetest.

Struktureeritud andmete näited

Töötajate tabel andmebaasis on struktureeritud andmete näide

Töötaja ID Töötaja_nimi Sugu Osakond Palk_In_lacs
2365 Rajesh Kulkarni Mees Rahandus 650000
3398 Pratibha Joshi Naine Administraator 650000
7465 Shushil Roy Mees Administraator 500000
7500 Shubhojit Das Mees Rahandus 500000
7699 Priya Sane Naine Rahandus 550000

Struktureerimata

Kõik teadmata vormi või struktuuriga andmed klassifitseeritakse struktureerimata andmetena. Lisaks sellele, et suurus on tohutu, esitab struktureerimata teave selle töötlemise osas mitmeid probleeme, et neist väärtust saada. Tüüpiline näide struktureerimata andmetest on heterogeenne andmeallikas, mis sisaldab lihtsate tekstifailide, piltide, videote jne kombinatsiooni. Praegu on organisatsioonidel palju andmeid, kuid kahjuks ei tea nad, kuidas sellest väärtust saada, kuna need andmed on töötlemata kujul või struktureerimata.

Struktureerimata andmete näited

„Google'i otsingu” tagastatud väljund

Poolstruktureeritud

Poolstruktureeritud andmed võivad sisaldada mõlemat vormi andmeid. Võime näha poolstruktureeritud andmeid vormis struktureerituna, kuid tegelikult pole neid määratletud näiteks relatsioonide DBMS-is tabeli määratlusega. Poolstruktureeritud andmete näide on XML-failis kujutatud andmed.

Näited poolstruktureeritud andmetest

XML-faili salvestatud isikuandmed

Prashant RaoMale35Seema R.Female41Satish ManeMale29Subrato RoyMale26Jeremiah J.Male35

Andmete kasv aastate jooksul

Pange tähele, et struktureerimata veebirakenduse andmed koosnevad logifailidest, tehinguajaloo failidest jne.

Suurandmete omadused

Suuri andmeid saab kirjeldada järgmiste omadustega:

  • Köide
  • Sordi
  • Kiirus
  • Muutlikkus

(i) Köide - nimi Big Data ise on seotud tohutu suurusega. Andmete väärtuse määramisel on andmete suurusel väga oluline roll. Samuti sõltub andmete mahust see, kas konkreetseid andmeid saab tegelikult pidada suurandmeteks või mitte. Seega on „maht“ üks omadus, mida tuleb suurandmetega tegelemisel arvesse võtta.

(ii) Variety - Big Data järgmine aspekt on selle mitmekesisus .

Variatsioon viitab nii struktureeritud kui ka struktureerimata heterogeensetele allikatele ja andmete olemusele. Varasematel päevadel olid enamus rakendusi ainsad andmeallikad arvutustabelid ja andmebaasid. Tänapäeval võetakse analüüsirakendustes arvesse ka e-kirjade, fotode, videote, jälgimisseadmete, PDF-ide, heli jms andmeid. See struktureerimata andmete mitmekesisus tekitab teatud probleeme andmete säilitamisel, kaevandamisel ja analüüsimisel.

(iii) Kiirus - mõiste „kiirus” viitab andmete genereerimise kiirusele. Kui kiiresti andmeid genereeritakse ja töödeldakse, et need vastaksid nõudmistele, määrab andmete tegeliku potentsiaali.

Big Data Velocity tegeleb andmete liikumise kiirusega sellistest allikatest nagu äriprotsessid, rakenduste logid, võrgud ja sotsiaalse meedia saidid, andurid, mobiilseadmed jne. Andmevoog on tohutu ja pidev.

(iv) Varieeruvus - see viitab ebajärjekindlusele, mida andmetel võib kohati näidata, pidurdades seega andmete tõhusaks käitlemiseks ja haldamiseks vajalikku protsessi.

Suurandmete töötlemise eelised

Suurandmete töötlemise oskus toob endaga kaasa mitmeid eeliseid, näiteks

    • Ettevõtted saavad otsuste tegemisel kasutada välist luureteavet

Juurdepääs otsingumootorite ja saitide, nagu facebook, twitter, sotsiaalsetele andmetele võimaldavad organisatsioonidel oma äristrateegiaid täpsustada.

    • Parem klienditeenindus

Traditsioonilised klientide tagasiside süsteemid asendatakse uute süsteemidega, mis on loodud Big Data tehnoloogiate abil. Nendes uutes süsteemides kasutatakse Big Data ja loomuliku keele töötlemise tehnoloogiaid tarbijate vastuste lugemiseks ja hindamiseks.

    • Tootele / teenusele avalduva riski varajane tuvastamine, kui see on olemas
    • Parem operatiivne efektiivsus

Big Data tehnoloogiaid saab kasutada uute andmete jaoks peatusala või maandumistsooni loomiseks, enne kui tuvastatakse, millised andmed tuleks andmelaosse teisaldada. Lisaks aitab selline Big Data tehnoloogiate ja andmeladu integreerimine organisatsioonil harva juurdepääsetavate andmete mahalaadimist.

Kokkuvõte

  • Big Data määratlus: Big Data on määratletud kui tohutu suurusega teave. Bigdata on termin, mida kasutatakse tohutu suurusega ja siiski aja jooksul eksponentsiaalselt kasvava andmekogu kirjeldamiseks.
  • Big Data analüüsi näited hõlmavad börse, sotsiaalmeedia saite, reaktiivmootoreid jne.
  • Suured andmed võiksid olla 1) struktureeritud, 2) struktureerimata, 3) poolstruktureeritud
  • Maht, varieeruvus, kiirus ja varieeruvus on vähe suurandmete omadusi
  • Parem klienditeenindus, parem operatiivne efektiivsus, parem otsuste tegemine on mõned Bigdata eelised