60 parimat Hadoop & Intervjuuküsimused MapReduce & Vastused

Anonim

Laadige alla PDF

Järgnevad on korduma kippuvad küsimused intervjuudes, mis on mõeldud värsketele õppijatele ja ka kogenud arendajatele.

1) Mis on Hadoop Map Reduce?

Suurte andmekogumite paralleelseks töötlemiseks Hadoopi klastris kasutatakse Hadoop MapReduce raamistikku. Andmeanalüüs kasutab kaheastmelist kaarti ja vähendab protsessi.

2) Kuidas Hadoop MapReduce töötab?

MapReduce'is loeb see kaardi faasis sõnu igas dokumendis, vähendamise etapis aga kogu kogu kogu dokumendi kohta. Kaardi faasis jagatakse sisendandmed analüüsimiseks jagudeks paralleelselt Hadoopi raamistikus töötavate kaardi ülesannete järgi.

3) Selgitage, mida MapReduce'is segatakse?

Protsessi, mille käigus süsteem sorteerib ja kaardi väljundid sisendina reduktorile edastab, nimetatakse segamiseks

4) Selgitage, mis on jaotatud vahemälu MapReduce Frameworkis?

Hajutatud vahemälu on oluline funktsioon, mille pakub raamistik MapReduce. Kui soovite mõnda faili kõigis Hadoopi klastri sõlmedes jagada, kasutatakse jaotatud vahemälu. Failid võivad olla käivitatavad jar-failid või lihtsad atribuudifailid.

5) Selgitage, mis on Hadoopis NameNode?

NameNode Hadoopis on sõlm, kuhu Hadoop salvestab kogu faili asukoha teabe HDFS-i (Hadoop Distributed File System). Teisisõnu, NameNode on HDFS-failisüsteemi keskpunkt. See peab arvestust kõigi failisüsteemi failide üle ja jälgib failiandmeid kogu klastris või mitmes masinas

6) Selgitage, mis on JobTracker Hadoopis? Millistele tegevustele järgneb Hadoop?

Hadoopis MapReduce'i töökohtade esitamiseks ja jälgimiseks kasutatakse JobTrackerit. Tööjälgija töötab oma JVM-i protsessis

Tööjälgija teostab Hadoopis järgmisi toiminguid

  • Kliendirakendus esitab töökohad tööjälgijale
  • JobTracker suhtleb režiimiga Nimi andmete asukoha määramiseks
  • Andmete lähedal või olemasolevate pesadega JobTracker otsib TaskTrackeri sõlmed
  • Valitud TaskTrackeri sõlmedel esitab see töö
  • Kui ülesanne ebaõnnestub, annab tööjälgija teada ja otsustab, mida siis teha.
  • TaskTrackeri sõlme jälgib JobTracker

7) Selgitage, mis on südamerütm HDFS-is?

Südamelöögile viidatakse signaalile, mida kasutatakse andmesõlme ja nimesõlme vahel ning ülesandejälgija ja tööjälgija vahel, kui nimesõlm või tööjälgija signaalile ei reageeri, leitakse, et andmesõlme või ülesandega on probleeme jälgija

8) Selgitage, mis kombineerijad on ja millal peaksite MapReduce Jobis kombaini kasutama?

MapReduce programmi efektiivsuse suurendamiseks kasutatakse kombineerijaid. Andmemahtu saab vähendada kombineerija abil, mis tuleb reduktoritele üle kanda. Kui teostatud toiming on kommutatiivne ja assotsiatiivne, saate reduktori koodi kasutada kombinaatorina. Hadoopis pole kombineerimise teostamine tagatud

9) Mis juhtub, kui andmesõlm ebaõnnestub?

Kui andmesõlm ebaõnnestub

  • Jobtracker ja namenode tuvastavad rikke
  • Ebaõnnestunud sõlmes on kõik ülesanded uuesti ajastatud
  • Namenode kopeerib kasutaja andmed teise sõlme

10) Selgitage, mis on spekulatiivne hukkamine?

Hadoopis spekulatiivse täitmise ajal käivitatakse teatud arv topeltülesandeid. Erinevas orjasõlmes saab spekulatiivse täitmise abil käivitada mitu sama kaardi või vähendatud ülesande koopiat. Lihtsamalt öeldes, kui konkreetne draiv võtab ülesande täitmiseks palju aega, loob Hadoop teisele kettale duplikaadi. Plaat, mis lõpetab ülesande esimesena, säilitatakse ja kettad, mis ei lõppe esimesena, tapetakse.

11) Selgitage, millised on Mapperi põhiparameetrid?

Mapperi põhiparameetrid on

  • LongWritable ja tekst
  • Tekst ja kirjutatav

12) Selgitage, mis on MapReduce partitsiooni funktsioon?

MapReduce sektsiooni ülesandeks on tagada, et kogu ühe klahvi väärtus läheks samale reduktorile, mis lõpuks aitab kaardi väljundit ühtlaselt jaotada reduktorite vahel

13) Selgitage, mis vahe on sisendjaotusel ja HDFS-plokil?

Andmete loogiline jagamine on tuntud kui Split, füüsiline andmete jagamine aga HDFS Block

14) Selgitage, mis juhtub tekstivormingus?

Tekstisisestusvormingus on iga tekstifaili rida kirje. Väärtus on rea sisu, samal ajal kui Key on rea baitide nihe. Näiteks Key: longWritable, Value: text

15) Mainige, millised on peamised konfiguratsiooniparameetrid, mille kasutaja peab MapReduce Jobi käivitamiseks määrama?

MapReduce raamistiku kasutaja peab täpsustama

  • Töö sisendkohad hajutatud failisüsteemis
  • Töö väljundi asukoht hajutatud failisüsteemis
  • Sisendvorming
  • Väljundi formaat
  • Klass, mis sisaldab kaardi funktsiooni
  • Klass, mis sisaldab redutseerimisfunktsiooni
  • JAR-fail, mis sisaldab kaardistaja, reduktori ja draiverite klasse

16) Selgitage, mis on WebDAV Hadoopis?

Failide redigeerimise ja värskendamise toetamiseks on WebDAV HTTP laienduste komplekt. Enamikus operatsioonisüsteemis saab WebDAV-i aktsiaid ühendada failisüsteemidena, seega on HDFS-ile juurdepääs tavalise failisüsteemina HDFS-i eksponeerimise kaudu WebDAV-i kaudu.

17) Selgitage, mis on Sqoop Hadoopis?

Andmete edastamiseks relatsiooniandmebaasi haldamise (RDBMS) ja Hadoop HDFS vahel kasutatakse tööriista, mida nimetatakse Sqoopiks. Sqoopi abil saab andmeid edastada nii RDMS-ist nagu MySQL või Oracle HDFS-i, kui ka andmeid HDFS-failist RDBMS-i eksportida

18) Selgitage, kuidas JobTracker tööülesandeid ajastab?

Ülesande jälgija saadab Jobtrackerile tavaliselt iga paari minuti järel südamelöögisõnumeid, et veenduda, et JobTracker on aktiivne ja toimiv. Sõnum teavitab JobTrackerit ka saadaolevate pesade arvust, nii et JobTracker suudab olla kursis, kus klastritöö saab delegeerida

19) Selgitage, mis on Sequencefileinputformaat?

Sequencefileinputformati kasutatakse failide järjestikuseks lugemiseks. See on spetsiifiline tihendatud binaarfaili formaat, mis on optimeeritud andmete edastamiseks ühe MapReduce-töö väljundi ja mõne muu MapReduce-töö sisendi vahel.

20) Selgitage, mida teeb conf.setMapper Class?

Conf.setMapperclass määrab kaardistaja klassi ja kõik kaarditööga seotud asjad, näiteks andmete lugemise ja võtmeväärtuste paari loomise kaardistajast

21) Selgitage, mis on Hadoop?

See on avatud lähtekoodiga tarkvararaamistik andmete salvestamiseks ja rakenduste käitamiseks kauba riistvara klastrites. See pakub tohutut töötlemisvõimsust ja tohutut salvestust igat tüüpi andmetele.

22) Mainige, mis on erinevus RDBMS-i ja Hadoopi vahel?

RDBMS Hadoop
RDBMS on relatsiooniline andmebaaside haldussüsteem Hadoop on sõlmpõhine tasane struktuur
Seda kasutati OLTP töötlemiseks, samas kui Hadoop Praegu kasutatakse seda analüütiliseks ja SUURTE ANDMETE töötlemiseks
RDBMS-is kasutab andmebaasiklaster samu jagatud salvestusruumi salvestatud andmefaile Hadoopis saab salvestusandmeid igas töötlussõlmes salvestada iseseisvalt.
Enne andmete salvestamist peate andmed eelnevalt töötlema enne andmete salvestamist pole vaja andmeid eeltöödelda

23) Kas mainida Hadoopi põhikomponente?

Hadoopi põhikomponendid hõlmavad

  • HDFS
  • MapReduce

24) Mis on NameNode Hadoopis?

Hadoopis asuv NameNode on koht, kuhu Hadoop salvestab kogu faili asukoha teabe HDFS-is. See on põhisõlm, kus tööjälgija töötab ja koosneb metaandmetest.

25) Mainige, milliseid andmekomponente Hadoop kasutab?

Hadoopi kasutatavad andmekomponendid on

  • Siga
  • Taru

26) Mainige, millist andmesalvestuskomponenti Hadoop kasutab?

Hadoopi kasutatav andmesalvestuskomponent on HBase.

27) Mainige, millised on Hadoopis määratletud kõige tavalisemad sisendvormingud?

Hadoopis määratletud kõige tavalisemad sisendvormingud on;

  • TextInputFormat
  • KeyValueInputFormat
  • SequenceFileInputFormat

28) Mis on Hadoopis InputSplit?

See jagab sisendfailid tükkideks ja määrab iga jaotise töötlemiseks kaardistajale.

29) Kuidas kirjutada Hadoopi töö jaoks kohandatud partitsioonija?

Kirjutate Hadoopi töö jaoks kohandatud sektsiooni, järgite järgmist teed

  • Looge uus klass, mis laiendab jaotaja klassi
  • Alista meetod getPartition
  • MapReduce'i käitavas ümbrises
  • Lisage kohandatud sektsioon tööle, kasutades meetodite komplekti Partitioner Class või - lisage kohandatud sektsioon tööle konfiguratsioonifailina

30) Kas Hadoopis asuva töökoha jaoks on võimalik muuta loodavate kaardistajate arvu?

Ei, loodavate kaardistajate arvu pole võimalik muuta. Kaardistajate arv määratakse sisendjaotuste arvu järgi.

31) Selgitage, mis on jadafail Hadoopis?

Binaarvõtmete / väärtuste paaride salvestamiseks kasutatakse järjestusfaili. Erinevalt tavalisest tihendatud failist toetab järjestusfail jagamist ka siis, kui failis olevad andmed on tihendatud.

32) Mis juhtub tööjälgijaga, kui Namenode on maas?

Namenode on HDFS-i üks rikke punkt, nii et kui Namenode on maas, asub teie klaster teele.

33) Selgitage, kuidas HDFS-is indekseerimist tehakse?

Hadoopil on ainulaadne indekseerimise viis. Kui andmed on ploki suuruse järgi salvestatud, säilitab HDFS andmete viimast osa, kus on kirjas andmete järgmine osa.

34) Selgitage, kas metamärke kasutades on võimalik faile otsida?

Jah, faile on võimalik metamärke kasutades otsida.

35) Loetlege Hadoopi kolm konfiguratsioonifaili?

Kolm konfiguratsioonifaili on

  • core-site.xml
  • mapred-site.xml
  • hdfs-site.xml

36) Selgitage, kuidas saate käsu jps abil kontrollida, kas Namenode töötab lisaks?

Lisaks käsu jps kasutamisele võite kasutada ka Namenode toimimise kontrollimiseks

/etc/init.d/hadoop-0.20-namenode olek.

37) Selgitage, mis on Hadoopis „kaart“ ja mis on „reduktor“?

Hadoopis on kaart HDFS-i päringute lahendamise etapp. Kaart loeb andmeid sisendkohast ja väljastab vastavalt sisendi tüübile võtmeväärtuste paari.

Hadoopis kogub reduktor kaardistaja genereeritud väljundi, töötleb seda ja loob oma lõpliku väljundi.

38) Milline fail kontrollib Hadoopis Hadoopis aruandlust?

Hadoopis kontrollib fail hadoop-metrics.properties aruandlust.

39) Hadoopi kasutamiseks loendage võrgunõuded?

Hadoopi kasutamiseks on võrgunõuete loend järgmine:

  • Paroolivaba SSH-ühendus
  • Secure Shell (SSH) serveriprotsesside käivitamiseks

40) Mainige, mis on riiuliteadlikkus?

Riiuliteadlikkus on viis, kuidas nimenood rackide määratluste põhjal määrab plokkide paigutamise.

41) Selgitage, mis on Hadoopis ülesannete jälgija?

Hadoopi ülesannete jälgija on klastri orjasõlmedeemon, mis võtab vastu JobTrackeri ülesandeid. Samuti saadab see iga mõne minuti tagant südamelöökide sõnumid JobTrackerile, et kinnitada, et JobTracker on endiselt elus.

42) Mainige, millised deemonid töötavad põhisõlmes ja orjasõlmedes?

  • Põhisõlmel töötavad deemonid on "NameNode"
  • Igas orjasõlmes töötavad deemonid on „Task Tracker” ja „Data”

43) Selgitage, kuidas saate Hadoopi koodi siluda?

Hadoopi koodi silumise populaarsed meetodid on järgmised:

  • Kasutades Hadoop raamistiku pakutavat veebiliidest
  • Kasutades loendureid

44) Selgitage, mis on salvestus- ja arvutussõlmed?

  • Salvestussõlm on masin või arvuti, kus teie failisüsteem töötlemisandmete salvestamiseks asub
  • Arvutussõlm on arvuti või masin, kus teie tegelik äriloogika käivitatakse.

45) Mainige, mis on kontekstiobjekti kasutamine?

Kontekstobjekt võimaldab kaardistajal suhelda ülejäänud Hadoopiga

süsteemi. See sisaldab töö konfigureerimisandmeid ja liideseid, mis võimaldavad tal väljundit väljastada.

46) Mainige, mis on järgmine samm Mapperi või MapTask'i järel?

Järgmine samm pärast Mapperit või MapTaskit on see, et Mapperi väljund on sorditud ja väljundi jaoks luuakse partitsioonid.

47) Mainige, kui palju on Hadoopis vaikimisi partitsioonijaid?

Hadoopis on vaikimisi partitsioonijagaja Hash.

48) Selgitage, mis on RecordReaderi eesmärk Hadoopis?

Hadoopis laadib RecordReader andmed oma allikast ja teisendab need (võtme, väärtuse) paarideks, mis sobivad Mapperi lugemiseks.

49) Selgitage, kuidas jagatakse andmed enne reduktorisse saatmist, kui Hadoopis pole määratletud kohandatud partitserit?

Kui Hadoopis pole määratletud ühtegi kohandatud sektsiooni, arvutab vaikepartitsion võtme räsiväärtuse ja määrab partitsiooni tulemuse põhjal.

50) Selgitage, mis juhtub, kui Hadoop sünnitas 50 tööülesannet ja üks ülesannetest ebaõnnestus?

Kui ülesanne ebaõnnestub rohkem kui määratletud limiit, taaskäivitab see ülesande mõnes teises TaskTrackeris.

51) Mainige, mis on parim viis failide kopeerimiseks HDFS-klastrite vahel?

Parim viis failide kopeerimiseks HDFS-klastrite vahel on mitme sõlme ja käsu distcp kasutamine, nii et töökoormus on jagatud.

52) Mainige, mis vahe on HDFS-il ja NAS-il?

HDFS-i andmeplokid jaotatakse klastri kõigi masinate kohalike draivide vahel, samal ajal kui NAS-i andmed on salvestatud spetsiaalsele riistvarale.

53) Mainige, kuidas Hadoop erineb teistest andmetöötlusvahenditest?

Hadoopis saate kaardistajate arvu suurendada või vähendada, muretsemata töödeldavate andmete mahu pärast.

54) Mainige, millist tööd teeb konf-klass?

Job conf klass eraldab erinevad klastris töötavad erinevad tööd. See teeb töö taseme seadeid, näiteks deklareerib töö reaalses keskkonnas.

55) Mainige, mis on Hadoop MapReduce API-de leping võtme- ja väärtusklassi jaoks?

Võtme- ja väärtusklassi jaoks on kaks Hadoop MapReduce API-liidest

  • Väärtus peab määrama liidese org.apache.hadoop.io.Writable
  • Võti peab määrama liidese org.apache.hadoop.io.WritableComparable

56) Mainige, millised on kolm režiimi, milles Hadoopi saab käitada?

Kolm režiimi, milles Hadoopi saab käitada, on

  • Pseudo hajutatud režiim
  • Eraldi (kohalik) režiim
  • Täielikult hajutatud režiim

57) Mainige, mida teeb tekstisisestusvorming?

Tekstisisestusvorming loob reaobjekti, mis on kuueteistkümnendsüsteem. Väärtust käsitletakse terve rea tekstina, võtit aga joone objektina. Kaardistaja saab väärtuse tekstiparameetrina, võti parameetrina pikakirjutatav.

58) Mainige, mitu InputSpliti teeb Hadoopi raamistik?

Hadoop teeb 5 tükki

  • 1 jagamine 64K failide jaoks
  • 2 jaotust 65mb failide jaoks
  • 2 spliti 127mb failide jaoks

59) Mainige, mis on Hadoopis jaotatud vahemälu?

Hadoopis jaotatud vahemälu on MapReduce raamistiku pakutav võimalus. Töö teostamise ajal kasutatakse seda faili vahemällu salvestamiseks. Raamistik kopeerib vajalikud failid alamsõlmesse enne mis tahes ülesande täitmist selles sõlmes.

60) Selgitage, kuidas mängib Hadoop Classpath üliolulist rolli Hadoopi deemonites peatumisel või alustamisel?

Classpath koosneb kataloogide loendist, mis sisaldab deemonite peatamiseks või käivitamiseks jar-faile.