62 parimat andmeinseneri intervjuuküsimust ja Vastused

Siin on korduma kippuvad andmeinseneri intervjuu küsimused nii esmakursuslastele kui ka kogenud kandidaatidele õige töö saamiseks.

1) Selgitage andmetehnikat.

Andmetehnika on termin, mida kasutatakse suurandmetes. See keskendub andmete kogumise ja uurimise rakendamisele. Erinevatest allikatest loodud andmed on vaid algandmed. Andmetehnika aitab need algandmed teisendada kasulikuks teabeks.

2) Mis on andmete modelleerimine?

Andmete modelleerimine on meetod tarkvara keeruka disaini skeemina dokumenteerimiseks, nii et kõik saaksid sellest hõlpsasti aru. See on kontseptuaalne kujutis andmeobjektidest, mis on seotud erinevate andmeobjektide ja reeglite vahel.

3) Andmete modelleerimisel loetlege mitmesugused disainiskeemid

Andmete modelleerimisel on peamiselt kahte tüüpi skeeme: 1) täheskeem ja 2) lumehelbe skeem.

4) Tehke vahet struktureeritud ja struktureerimata andmete vahel

Järgnevalt on erinevus struktureeritud ja struktureerimata andmete vahel:

Parameeter	Struktureeritud andmed	Struktureerimata andmed
Ladustamine	DBMS	Haldamata failistruktuurid
Standard	ADO.net, ODBC ja SQL	STMP, XML, CSV ja SMS
Integreerimise tööriist	ELT (väljavõte, teisendamine, laadimine)	Koode sisaldav käsitsi andmete sisestamine või pakkide töötlemine
skaleerimine	Skeemi skaleerimine on keeruline	Skaalamine on väga lihtne.

5) Selgitage kõiki Hadoopi rakenduse komponente

Hadoopi rakenduse komponendid on järgmised:

Hadoop Common: see on tavaline utiliitide ja teekide komplekt, mida Hadoop kasutab.
HDFS: see Hadoopi rakendus on seotud failisüsteemiga, kuhu Hadoopi andmed on salvestatud. See on suure ribalaiusega hajutatud failisüsteem.
Hadoop MapReduce: see põhineb suuremahulise andmetöötluse pakkumise algoritmil.
Hadoop LÕNG: seda kasutatakse ressursside haldamiseks Hadoopi klastris. Seda saab kasutada ka kasutajate ülesannete ajastamiseks.

6) Mis on NameNode?

See on HDFS-i keskpunkt. See salvestab HDFS-i andmeid ja jälgib klastrite kaupa erinevaid faile. Siin ei salvestata tegelikke andmeid. Andmed salvestatakse DataNodes.

7) Määrake Hadoopi voogesitus

See on utiliit, mis võimaldab luua kaarti, vähendab töökohti ja suunab need konkreetsesse klastrisse.

8) Mis on HDFS-i täielik vorm?

HDFS tähistab Hadoopi hajutatud failisüsteemi.

9) Määrake HDFS-is blokeerimise ja blokeerimise skanner

Blokid on andmefaili väikseim üksus. Hadoop jagab tohutud failid automaatselt väikesteks tükkideks.

Blokeerimisskanner kontrollib DataNode'is esitatud plokkide loendit.

10) Millised on toimingud, kui plokiskanner tuvastab rikutud andmeploki?

Järgmised toimingud toimuvad siis, kui blokeerimisskanner leiab rikutud andmeploki:

1) Esiteks, kui blokeerimisskanner leiab rikutud andmeploki, edastab DataNode nimeNode

2) NameNode käivitab uue koopia loomise protsessi, kasutades rikutud ploki koopiat.

3) Õigete koopiate replikatsioonide arv püüab sobida replikatsiooniteguriga. Kui leitud vaste on rikutud, ei blokeerita andmeplokki.

11) Nimetage kaks sõnumit, mille NameNode saab DataNode'ilt?

Seal on kaks sõnumit, mille NameNode saab DataNode'ilt. Need on 1) blokeerimisaruanne ja 2) südamelöögid.

12) Loetlege Hadoopis erinevad XML-i konfiguratsioonifailid?

Hadoopis on viis XML-i konfiguratsioonifaili:

Mapred-sait
Tuum-sait
HDFS-sait
Lõngakoht

13) Mis on neli suurandmete V-d?

Neli suurandmete V-d on:

Kiirus
Sordi
Köide
Tõepärasus

14) Selgitage Hadoopi tunnuseid

Hadoopi olulised omadused on:

See on avatud lähtekoodiga raamistik, mis on saadaval tasuta.
Hadoop ühildub paljude riistvaratüüpidega ja on hõlpsasti juurdepääsetav uuele riistvarale konkreetses sõlmes.
Hadoop toetab andmete kiiremat hajutamist.
See salvestab andmed klastrisse, mis on ülejäänud toimingutest sõltumatu.
Hadoop võimaldab iga ploki jaoks luua 3 koopiat erinevate sõlmedega.

15) Selgitage Reduceri peamisi meetodeid

setup (): Seda kasutatakse selliste parameetrite konfigureerimiseks nagu sisendandmete suurus ja hajutatud vahemälu.
cleanup (): Seda meetodit kasutatakse ajutiste failide puhastamiseks.
reduc (): See on reduktori süda, mida kutsutakse üks kord võtme kohta koos sellega seotud vähendatud ülesandega

16) Mis on COSHH lühend?

COSHH lühend on Heterogeensete Hadoopi süsteemide klassifitseerimise ja optimeerimise põhine ajakava.

17) Selgitage täheskeemi

Tärniskeem või tärniga liitumisskeem on andmelao skeemi lihtsaim tüüp. Seda tuntakse täheskeemina, kuna selle struktuur on nagu täht. Täheskeemis võib tähe keskel olla üks faktitabel ja mitu seotud dimensioonitabelit. Seda skeemi kasutatakse suurte andmekogumite päringuteks.

18) Kuidas kasutada suurandmete lahendust?

Suurandmete lahenduse juurutamiseks toimige järgmiselt.

1) Integreerige andmed andmeallikate abil, nagu RDBMS, SAP, MySQL, Salesforce

2) Salvestage eraldatud andmed kas NoSQL-i andmebaasi või HDFS-i.

3) juurutage suurandmete lahendus, kasutades selliseid töötlusraamistikke nagu Pig, Spark ja MapReduce.

19) Selgitage FSCK-d

Failisüsteemi kontroll või FSCK on HDFS-i käsk. FSCK käsku kasutatakse faili vastuolude ja probleemide kontrollimiseks.

20) Selgitage lumehelveste skeemi

Lumehelveste skeem on täheskeemi pikendus ja see lisab täiendavaid mõõtmeid. See on nn lumehelves, kuna selle skeem näeb välja nagu lumehelves. Dimensioonitabelid on normaliseeritud, mis jagab andmed täiendavateks tabeliteks.

21) Tehke vahet tähe- ja lumehelveste skeemil

Täht	Lumehelbe skeem
Mõõtmete hierarhiad salvestatakse mõõtude tabelis.	Iga hierarhia salvestatakse eraldi tabelitesse.
Andmete koondamise tõenäosus on suur	Andmete koondamise tõenäosus on väike.
Sellel on väga lihtne DB disain	Sellel on keeruline DB disain
Pakkuge kuupide töötlemiseks kiiremat viisi	Kuubikute töötlemine on keeruka liitumise tõttu aeglane.

22) Selgitage Hadoopi hajutatud failisüsteemi

Hadoop töötab skaleeritavate hajutatud failisüsteemidega nagu S3, HFTP FS, FS ja HDFS. Hadoopi hajutatud failisüsteem on loodud Google'i failisüsteemis. See failisüsteem on loodud nii, et seda saab hõlpsasti käivitada arvutisüsteemi suures klastris.

23) Selgitage andmeinseneri peamisi kohustusi

Andmete inseneridel on palju kohustusi. Nad haldavad andmete allikasüsteemi. Andmemehaanikud lihtsustavad keerukat andmestruktuuri ja takistavad andmete dubleerimist. Mitu korda pakuvad nad ka ELT-d ja andmete teisendamist.

24) Milline on LÕNG täies vormis?

Lõnga täielik vorm on veel üks ressursside läbirääkija.

25) Loetlege Hadoopis erinevaid režiime

Hadoopi režiimid on 1) eraldiseisev režiim 2) pseudohajutatud režiim 3) täielikult hajutatud režiim.

26) Kuidas Hadoopis turvalisust saavutada?

Hadoopis turvalisuse saavutamiseks toimige järgmiselt.

1) Esimene samm on kliendi autentimiskanali serverisse kinnitamine. Pakkuge kliendile ajatemplit.

2) Teises etapis kasutab klient teenuse pileti saamiseks TGS-i saabunud ajatemplit.

3) Viimases etapis kasutab klient teenuse piletit konkreetse serveri autentimiseks.

27) Mis on südamelöögid Hadoopis?

Hadoopis suhtlevad NameNode ja DataNode omavahel. Südamelöök on DataNode'i poolt regulaarselt NameNode'ile saadetud signaal, mis näitab selle olemasolu.

28) Hadoopis eristage NAS-i ja DAS-i

NAS	DAS
Mälumaht on 10 ⁹ to 10 ¹² baidi.	Salvestusmaht on 10 ⁹ baiti.
Halduskulud GB kohta on mõõdukad.	Halduskulud GB kohta on suured.
Andmete edastamine Etherneti või TCP / IP abil.	Andmete edastamine IDE / SCSI abil

29) Loetlege olulised väljad või keeled, mida andmetehnikud kasutavad

Siin on mõned väljad või keeled, mida andmeinsener kasutab:

Tõenäosus kui ka lineaarne algebra
Masinõpe
Suundumuste analüüs ja regressioon
Hive QL ja SQL andmebaasid

30) Mis on suurandmed?

See on suur hulk struktureeritud ja struktureerimata andmeid, mida ei saa traditsiooniliste andmesalvestusmeetoditega hõlpsasti töödelda. Andmete insenerid kasutavad suurandmete haldamiseks Hadoopi.

31) Mis on FIFO ajakava?

See on Hadoopi töö ajastamise algoritm. Selles FIFO ajakavas valib reporter töökohad tööreast, kõige vanem töö.

32) Mainige vaikepordi numbreid, millel Hadoopis töötavad ülesannete jälgija, NameNode ja tööjälgija

Vaikepordi numbrid, millel Hadoopis käitatavad ülesannete jälgija, NameNode ja tööjälgija on järgmised:

Task tracker töötab 50060 pordil
NameNode töötab pordil 50070
Tööjälgija töötab 50030 sadamas

33) Kuidas blokeerida skanner HDFS-i andmesõlmes

Blokeerimisseadme keelamiseks HDFS-i andmesõlmes määrake dfs.datanode.scan.period.hours väärtuseks 0.

34) Kuidas määratleda kahe sõlme vaheline kaugus Hadoopis?

Kaugus on võrdne lähimate sõlmpunktide kauguse summaga. Kahe sõlme vahelise kauguse arvutamiseks kasutatakse meetodit getDistance ().

35) Miks kasutada Hadoopis kauba riistvara?

Kauba riistvara on lihtne hankida ja see on taskukohane. See on süsteem, mis ühildub Windowsi, MS-DOS-i või Linuxiga.

36) Määrake HDFS-i replikatsioonitegur

Replikatsioonitegur on faili koopiate koguarv süsteemis.

37) Milliseid andmeid on NameNode'is salvestatud?

Namenode salvestab HDFS-i metaandmed, nagu plokkide teave ja nimeruumi teave.

38) Mida mõtlete riiuliteadlikkuse all?

Haddop-klastris kasutab Namenode võrgu liikluse parandamiseks Datanode'i, lugedes või kirjutades mis tahes faili, mis on lähedal asuvale rackile lähemal, et seda lugeda või kirjutada. Namenode säilitab rackide teabe saamiseks iga DataNode'i racki ID-d. Seda kontseptsiooni nimetatakse Hadoopis rack-teadlikkuseks.

39) Millised on sekundaarse nimesõlme funktsioonid?

Järgnevad funktsioonid Secondary NameNode:

FsImage, mis salvestab EditLogi ja FsImage'i failide koopiad.
NameNode krahh: Kui NameNode jookseb kokku, saab sekundaarse NameNode'i FsImage'i abil NameNode'i uuesti luua.
Kontrollpunkt: Secondary NameNode kasutab seda kinnitamaks, et HDFS-is pole andmeid rikutud.
Värskendamine: see värskendab faile EditLog ja FsImage automaatselt. See aitab hoida FsImage-faili sekundaarses NameNode'is värskena.

40) Mis juhtub, kui NameNode on maas ja kasutaja esitab uue töö?

NameNode on Hadoopi rikke üks punkt, nii et kasutaja ei saa uut tööd esitada, ei saa seda täita. Kui NameNode on maas, võib töö ebaõnnestuda, kuna kasutaja peab enne mis tahes töö käivitamist ootama, kuni NameNode taaskäivitub.

41) Millised on reduktori põhifaasid Hadoopis?

Hadoopis on reduktori kolm põhifaasi:

1. Segamine: Reduktor kopeerib siin Mapperi väljundi.

2. Sorteeri: sortimisel sorteerib Hadoop sama klahvi abil reduktorile sisendi.

3. Vähenda: selles etapis vähendatakse võtmega seotud väljundväärtusi andmete koondamiseks lõplikku väljundisse.

42) Miks kasutab Hadoop kontekstiobjekti?

Hadoop raamistik kasutab ülejäänud süsteemiga suhtlemiseks kontekstobjekti koos klassiga Mapper. Kontekstiobjekt saab süsteemi konfiguratsiooni üksikasjad ja töö oma konstruktorisse.

Me kasutame kontekstiobjekti teabe edastamiseks setup (), cleanup () ja map () meetodites. See objekt muudab elutähtsa teabe kaardioperatsioonide ajal kättesaadavaks.

43) Määrake kombineerija Hadoopis

See on valikuline samm Mapi ja Reduce vahel. Combiner võtab väljundi funktsioonist Map, loob võtmeväärtuste paarid ja esitab selle Hadoop Reducerile. Combineri ülesanne on kokku võtta Mapi lõpptulemus identse võtmega kokkuvõtlikeks kirjeteks.

44) Mis on HDFS-is vaikimisi saadaval replikatsioonitegur, mida see näitab?

HDFS-is saadaval olev vaikereplikatsioonitegur on kolm. Vaikimisi replikatsioonitegur näitab, et igast andmest on kolm koopiat.

45) Mida sa mõtled Hadoopis andmete asukohast?

Big Data süsteemis on andmete maht tohutu ja seetõttu pole mõtet andmeid üle võrgu teisaldada. Nüüd proovib Hadoop arvutuse andmetele lähemale viia. Nii jäävad andmed salvestatud asukoha lokaalseks.

46) Määrake HDFS-is tasakaalustaja

HDFS-is on tasakaalustaja administraator, mida administraatorid kasutavad andmete tasakaalustamiseks DataNodes'i vahel ja liigutab plokid ülekasutatutest alakasutatud sõlmedesse.

47) Selgitage HDFS-is turvarežiimi

See on NameNode'i kirjutuskaitstud režiim klastris. Esialgu on NameNode Safemode'is. See takistab Safemode'i failisüsteemi kirjutamist. Sel ajal kogub see andmeid ja statistikat kõigilt DataNode'idelt.

48) Mis on jaotatud vahemälu tähtsus Apache Hadoopis?

Hadoopil on kasulik utiliitfunktsioon, nn hajutatud vahemälu, mis parandab tööde jõudlust rakenduste poolt kasutatavate failide vahemällu salvestamise abil. Rakendus saab vahemälu faili määrata, kasutades JobConfi konfiguratsiooni.

Hadoop raamistik muudab nende failide koopiad sõlmedeks, mille ülesanne tuleb täita. Seda tehakse enne ülesande täitmise alustamist. Hajutatud vahemälu toetab nii kirjutuskaitstud failide kui ka zip- ja purgifailide levitamist.

49) Mis on taru metapood?

See salvestab skeemi ja Hive tabeli asukoha.

Tarutabel määratleb, kaardistab ja metaandmed, mis on salvestatud Metastore'i. Seda saab salvestada JPOX-i toetatud RDBMS-i.

50) Mida tähendab tarus SerDe?

SerDe on Serializer või Deserializer lühike nimi. Tarus võimaldab SerDe lugeda tabelist andmeid ja kirjutada konkreetsele väljale suvalises vormingus.

51) Loetlege Hive'i andmemudelis saadaval olevad komponendid

Taru andmemudelis on järgmised komponendid:

Tabelid
Vaheseinad
Ämbrid

52) Selgitage taru kasutamist Hadoopi ökosüsteemis.

Hive pakub liidest Hadoopi ökosüsteemi salvestatud andmete haldamiseks. Taru kasutatakse HBase tabelite kaardistamiseks ja nendega töötamiseks. Tarupäringud teisendatakse MapReduce'i töökohtadeks, et varjata MapReduce'i töökohtade loomise ja käitamisega seotud keerukust.

53) Hive toetab mitmesuguste keerukate andmetüüpide / kogude loendit

Hive toetab järgmisi keerukaid andmetüüpe:

Kaart
Struktuur
Massiiv
Liit

54) Selgitage, kuidas tarus olevat .hiverc-faili kasutatakse?

Tarus on .hiverc initsialiseerimisfail. See fail laaditakse algselt Hive'i käsurealiidese (CLI) käivitamisel. Parameetrite algväärtused saame määrata .hiverc-failis.

55) Kas Hive'is on võimalik ühe andmefaili jaoks luua rohkem kui üks tabel?

Jah, saame andmefaili jaoks luua rohkem kui ühe tabeliskeemi. Hive salvestab skeemi Hive Metastore'i. Selle skeemi põhjal saame samadelt andmetelt hankida erinevad tulemused.

56) Selgitage erinevaid tarus saadaval olevaid SerDe rakendusi

Tarus on saadaval palju SerDe rakendusi. Samuti võite kirjutada omaenda kohandatud SerDe juurutamise. Järgnevalt on toodud mõned kuulsad SerDe rakendused:

OpenCSVSerde
RegexSerDe
PiiratudJSONSerDe
ByteStreamTypedSerDe

57) Loetlege Hive'is saadaval olevad tabelit genereerivad funktsioonid

Allpool on loend tabelit genereerivatest funktsioonidest:

Plahvatada (massiiv)
JSON_tuple ()
Virna ()
Plahvatada (kaart)

58) Mis on kärjes viltune laud?

Viltune tabel on tabel, mis sisaldab veeru väärtusi sagedamini. Kui määrame tarus loomise ajal tabeli SKEWED, kirjutatakse viltused väärtused eraldi failidesse ja ülejäänud väärtused lähevad teise faili.