Mis on Hadoop?
Apache Hadoop on avatud lähtekoodiga tarkvara raamistik, mida kasutatakse hajutatud andmetöötluskeskkonnas käivitatavate andmetöötlusrakenduste väljatöötamiseks.
HADOOP-i abil loodud rakendusi käitatakse suurtes andmekogumites, mis on jaotatud kaubaarvutite klastrite vahel. Kaubaarvutid on odavad ja laialt saadaval. Need on peamiselt kasulikud suurema arvutusvõime saavutamiseks madalate kuludega.
Sarnaselt personaalarvutisüsteemi kohalikus failisüsteemis olevatele andmetele asuvad ka Hadoopis andmed hajutatud failisüsteemis, mida nimetatakse Hadoopi hajutatud failisüsteemiks . Töötlemismudel põhineb „andmete lokaliseerimise” kontseptsioonil, kus arvutuslik loogika saadetakse andmeid sisaldavatele klastrisõlmedele (server). See arvutuslik loogika pole midagi, vaid kompileeritud versioon programmist, mis on kirjutatud kõrgetasemelises keeles nagu Java. Selline programm töötleb Hadoop HDFS-is salvestatud andmeid.
Kas sa tead? Arvutiklaster koosneb mitmest töötlusüksusest (salvestusketas + protsessor), mis on omavahel ühendatud ja toimivad ühe süsteemina.
Selles õpetuses saate teada,
- Hadoopi ökosüsteem ja komponendid
- Hadoopi arhitektuur
- Hadoopi omadused
- Võrgu topoloogia Hadoopis
Hadoopi ökosüsteem ja komponendid
Allpool olev diagramm näitab Hadoopi ökosüsteemi erinevaid komponente -
Apache Hadoop koosneb kahest allprojektist -
- Hadoop MapReduce: MapReduce on arvutusmudel ja tarkvararaamistik Hadoopis käitatavate rakenduste kirjutamiseks. Need MapReduce programmid suudavad tohutult andmeid paralleelselt töödelda suurtes arvutisõlmede klastrites.
- HDFS ( Hadoopi hajutatud failisüsteem ): HDFS hoolitseb Hadoopi rakenduste salvestusosa eest. MapReduce'i rakendused tarbivad HDFS-i andmeid. HDFS loob mitu andmeplokkide koopiat ja jaotab need klastri arvutusõlmedesse. See jaotus võimaldab usaldusväärseid ja ülikiireid arvutusi.
Kuigi Hadoop on kõige paremini tuntud MapReduce'i ja selle hajutatud failisüsteemi HDFS poolest, kasutatakse seda mõistet ka seotud projektide perekonna jaoks, mis kuuluvad hajutatud arvutustehnika ja suuremahulise andmetöötluse katuse alla. Muude Hadoopiga seotud projektide hulka kuuluvad Apache'is Hive, HBase, Mahout, Sqoop, Flume ja ZooKeeper.
Hadoopi arhitektuur
Hadoopil on Master-Slave arhitektuur andmete salvestamiseks ja hajutatud andmetöötluseks, kasutades MapReduce ja HDFS meetodeid.
NameNode:
NameNode tähistas kõiki faile ja katalooge, mida nimeruumis kasutatakse
DataNode:
DataNode aitab teil hallata HDFS-sõlme olekut ja võimaldab teil plokkidega suhelda
MasterNode:
Põhisõlm võimaldab teil andmeid paralleelselt töödelda, kasutades Hadoop MapReduce.
Orjasõlm:
Orjasõlmed on täiendavad masinad Hadoopi klastris, mis võimaldab teil andmeid salvestada keerukate arvutuste tegemiseks. Pealegi on kõigil alamsõlmel Task Tracker ja DataNode. See võimaldab teil sünkroonida protsessid vastavalt NameNode ja Job Trackeriga.
Hadoopis saab põhi- või alamsüsteemi seadistada pilves või kohapeal
Hadoopi omadused
• sobib suurandmete analüüsiks
Kuna Big Data kipub olemuselt olema hajutatud ja struktureerimata, sobivad HADOOP-klastrid kõige paremini Big Data analüüsiks. Kuna arvutisõlmedesse voolab loogika (mitte tegelikud andmed) töötlemine, kulutatakse vähem võrgu ribalaiust. Seda kontseptsiooni nimetatakse andmekoha mõisteks, mis aitab suurendada Hadoopil põhinevate rakenduste efektiivsust.
• Skaalautuvus
HADOOP-klastreid saab hõlpsasti mis tahes ulatuses skaleerida, lisades täiendavaid klastersõlme ja võimaldades seeläbi suurandmete kasvu. Samuti ei vaja skaleerimine rakenduse loogika muutmist.
• Veataluvus
HADOOP-i ökosüsteemil on säte sisendandmete paljundamiseks teistele klastrisõlmedele. Nii saab klastersõlme rikke korral andmetöötlust jätkata, kasutades teises klastrisõlmesse salvestatud andmeid.
Võrgu topoloogia Hadoopis
Võrgu topoloogia (paigutus) mõjutab Hadoopi klastri jõudlust, kui Hadoopi klastri suurus kasvab. Lisaks jõudlusele tuleb hoolida ka rikete kõrgest kättesaadavusest ja käsitlemisest. Selle Hadoopi saavutamiseks kasutab klastrite moodustamine võrgu topoloogiat.
Tavaliselt on võrgu ribalaius oluline tegur, mida tuleb võrgu moodustamisel arvesse võtta. Kuna ribalaiuse mõõtmine võib olla keeruline, on Hadoopis võrk kujutatud puuna ja selle puu sõlmede vahekaugust (humala arv) peetakse Hadoopi klastri moodustamisel oluliseks teguriks. Siin on kahe sõlme vaheline kaugus võrdne nende lähima ühise esivanema kauguse summaga.
Hadoopi klaster koosneb andmekeskusest, rackist ja sõlmest, mis tegelikult töid täidab. Siin koosneb andmekeskus rackidest ja rack sõlmedest. Protsessidele kättesaadav võrgu ribalaius varieerub sõltuvalt protsesside asukohast. See tähendab, et saadaolev ribalaius muutub väiksemaks, kui me
- Töötleb samal sõlmel
- Erinevad sõlmed samal rackil
- Sõlmed sama andmekeskuse erinevatel riiulitel
- Sõlmed erinevates andmekeskustes