Siin on korduma kippuvad andmeinseneri intervjuu küsimused nii esmakursuslastele kui ka kogenud kandidaatidele õige töö saamiseks.
1) Selgitage andmetehnikat.
Andmetehnika on termin, mida kasutatakse suurandmetes. See keskendub andmete kogumise ja uurimise rakendamisele. Erinevatest allikatest loodud andmed on vaid algandmed. Andmetehnika aitab need algandmed teisendada kasulikuks teabeks.
2) Mis on andmete modelleerimine?
Andmete modelleerimine on meetod tarkvara keeruka disaini skeemina dokumenteerimiseks, nii et kõik saaksid sellest hõlpsasti aru. See on kontseptuaalne kujutis andmeobjektidest, mis on seotud erinevate andmeobjektide ja reeglite vahel.
3) Andmete modelleerimisel loetlege mitmesugused disainiskeemid
Andmete modelleerimisel on peamiselt kahte tüüpi skeeme: 1) täheskeem ja 2) lumehelbe skeem.
4) Tehke vahet struktureeritud ja struktureerimata andmete vahel
Järgnevalt on erinevus struktureeritud ja struktureerimata andmete vahel:
Parameeter | Struktureeritud andmed | Struktureerimata andmed |
Ladustamine | DBMS | Haldamata failistruktuurid |
Standard | ADO.net, ODBC ja SQL | STMP, XML, CSV ja SMS |
Integreerimise tööriist | ELT (väljavõte, teisendamine, laadimine) | Koode sisaldav käsitsi andmete sisestamine või pakkide töötlemine |
skaleerimine | Skeemi skaleerimine on keeruline | Skaalamine on väga lihtne. |
5) Selgitage kõiki Hadoopi rakenduse komponente
Hadoopi rakenduse komponendid on järgmised:
- Hadoop Common: see on tavaline utiliitide ja teekide komplekt, mida Hadoop kasutab.
- HDFS: see Hadoopi rakendus on seotud failisüsteemiga, kuhu Hadoopi andmed on salvestatud. See on suure ribalaiusega hajutatud failisüsteem.
- Hadoop MapReduce: see põhineb suuremahulise andmetöötluse pakkumise algoritmil.
- Hadoop LÕNG: seda kasutatakse ressursside haldamiseks Hadoopi klastris. Seda saab kasutada ka kasutajate ülesannete ajastamiseks.
6) Mis on NameNode?
See on HDFS-i keskpunkt. See salvestab HDFS-i andmeid ja jälgib klastrite kaupa erinevaid faile. Siin ei salvestata tegelikke andmeid. Andmed salvestatakse DataNodes.
7) Määrake Hadoopi voogesitus
See on utiliit, mis võimaldab luua kaarti, vähendab töökohti ja suunab need konkreetsesse klastrisse.
8) Mis on HDFS-i täielik vorm?
HDFS tähistab Hadoopi hajutatud failisüsteemi.
9) Määrake HDFS-is blokeerimise ja blokeerimise skanner
Blokid on andmefaili väikseim üksus. Hadoop jagab tohutud failid automaatselt väikesteks tükkideks.
Blokeerimisskanner kontrollib DataNode'is esitatud plokkide loendit.
10) Millised on toimingud, kui plokiskanner tuvastab rikutud andmeploki?
Järgmised toimingud toimuvad siis, kui blokeerimisskanner leiab rikutud andmeploki:
1) Esiteks, kui blokeerimisskanner leiab rikutud andmeploki, edastab DataNode nimeNode
2) NameNode käivitab uue koopia loomise protsessi, kasutades rikutud ploki koopiat.
3) Õigete koopiate replikatsioonide arv püüab sobida replikatsiooniteguriga. Kui leitud vaste on rikutud, ei blokeerita andmeplokki.
11) Nimetage kaks sõnumit, mille NameNode saab DataNode'ilt?
Seal on kaks sõnumit, mille NameNode saab DataNode'ilt. Need on 1) blokeerimisaruanne ja 2) südamelöögid.
12) Loetlege Hadoopis erinevad XML-i konfiguratsioonifailid?
Hadoopis on viis XML-i konfiguratsioonifaili:
- Mapred-sait
- Tuum-sait
- HDFS-sait
- Lõngakoht
13) Mis on neli suurandmete V-d?
Neli suurandmete V-d on:
- Kiirus
- Sordi
- Köide
- Tõepärasus
14) Selgitage Hadoopi tunnuseid
Hadoopi olulised omadused on:
- See on avatud lähtekoodiga raamistik, mis on saadaval tasuta.
- Hadoop ühildub paljude riistvaratüüpidega ja on hõlpsasti juurdepääsetav uuele riistvarale konkreetses sõlmes.
- Hadoop toetab andmete kiiremat hajutamist.
- See salvestab andmed klastrisse, mis on ülejäänud toimingutest sõltumatu.
- Hadoop võimaldab iga ploki jaoks luua 3 koopiat erinevate sõlmedega.
15) Selgitage Reduceri peamisi meetodeid
- setup (): Seda kasutatakse selliste parameetrite konfigureerimiseks nagu sisendandmete suurus ja hajutatud vahemälu.
- cleanup (): Seda meetodit kasutatakse ajutiste failide puhastamiseks.
- reduc (): See on reduktori süda, mida kutsutakse üks kord võtme kohta koos sellega seotud vähendatud ülesandega
16) Mis on COSHH lühend?
COSHH lühend on Heterogeensete Hadoopi süsteemide klassifitseerimise ja optimeerimise põhine ajakava.
17) Selgitage täheskeemi
Tärniskeem või tärniga liitumisskeem on andmelao skeemi lihtsaim tüüp. Seda tuntakse täheskeemina, kuna selle struktuur on nagu täht. Täheskeemis võib tähe keskel olla üks faktitabel ja mitu seotud dimensioonitabelit. Seda skeemi kasutatakse suurte andmekogumite päringuteks.
18) Kuidas kasutada suurandmete lahendust?
Suurandmete lahenduse juurutamiseks toimige järgmiselt.
1) Integreerige andmed andmeallikate abil, nagu RDBMS, SAP, MySQL, Salesforce
2) Salvestage eraldatud andmed kas NoSQL-i andmebaasi või HDFS-i.
3) juurutage suurandmete lahendus, kasutades selliseid töötlusraamistikke nagu Pig, Spark ja MapReduce.
19) Selgitage FSCK-d
Failisüsteemi kontroll või FSCK on HDFS-i käsk. FSCK käsku kasutatakse faili vastuolude ja probleemide kontrollimiseks.
20) Selgitage lumehelveste skeemi
Lumehelveste skeem on täheskeemi pikendus ja see lisab täiendavaid mõõtmeid. See on nn lumehelves, kuna selle skeem näeb välja nagu lumehelves. Dimensioonitabelid on normaliseeritud, mis jagab andmed täiendavateks tabeliteks.
21) Tehke vahet tähe- ja lumehelveste skeemil
Täht | Lumehelbe skeem |
Mõõtmete hierarhiad salvestatakse mõõtude tabelis. | Iga hierarhia salvestatakse eraldi tabelitesse. |
Andmete koondamise tõenäosus on suur | Andmete koondamise tõenäosus on väike. |
Sellel on väga lihtne DB disain | Sellel on keeruline DB disain |
Pakkuge kuupide töötlemiseks kiiremat viisi | Kuubikute töötlemine on keeruka liitumise tõttu aeglane. |
22) Selgitage Hadoopi hajutatud failisüsteemi
Hadoop töötab skaleeritavate hajutatud failisüsteemidega nagu S3, HFTP FS, FS ja HDFS. Hadoopi hajutatud failisüsteem on loodud Google'i failisüsteemis. See failisüsteem on loodud nii, et seda saab hõlpsasti käivitada arvutisüsteemi suures klastris.
23) Selgitage andmeinseneri peamisi kohustusi
Andmete inseneridel on palju kohustusi. Nad haldavad andmete allikasüsteemi. Andmemehaanikud lihtsustavad keerukat andmestruktuuri ja takistavad andmete dubleerimist. Mitu korda pakuvad nad ka ELT-d ja andmete teisendamist.
24) Milline on LÕNG täies vormis?
Lõnga täielik vorm on veel üks ressursside läbirääkija.
25) Loetlege Hadoopis erinevaid režiime
Hadoopi režiimid on 1) eraldiseisev režiim 2) pseudohajutatud režiim 3) täielikult hajutatud režiim.
26) Kuidas Hadoopis turvalisust saavutada?
Hadoopis turvalisuse saavutamiseks toimige järgmiselt.
1) Esimene samm on kliendi autentimiskanali serverisse kinnitamine. Pakkuge kliendile ajatemplit.
2) Teises etapis kasutab klient teenuse pileti saamiseks TGS-i saabunud ajatemplit.
3) Viimases etapis kasutab klient teenuse piletit konkreetse serveri autentimiseks.
27) Mis on südamelöögid Hadoopis?
Hadoopis suhtlevad NameNode ja DataNode omavahel. Südamelöök on DataNode'i poolt regulaarselt NameNode'ile saadetud signaal, mis näitab selle olemasolu.
28) Hadoopis eristage NAS-i ja DAS-i
NAS | DAS |
Mälumaht on 10 9 to 10 12 baidi. | Salvestusmaht on 10 9 baiti. |
Halduskulud GB kohta on mõõdukad. | Halduskulud GB kohta on suured. |
Andmete edastamine Etherneti või TCP / IP abil. | Andmete edastamine IDE / SCSI abil |
29) Loetlege olulised väljad või keeled, mida andmetehnikud kasutavad
Siin on mõned väljad või keeled, mida andmeinsener kasutab:
- Tõenäosus kui ka lineaarne algebra
- Masinõpe
- Suundumuste analüüs ja regressioon
- Hive QL ja SQL andmebaasid
30) Mis on suurandmed?
See on suur hulk struktureeritud ja struktureerimata andmeid, mida ei saa traditsiooniliste andmesalvestusmeetoditega hõlpsasti töödelda. Andmete insenerid kasutavad suurandmete haldamiseks Hadoopi.
31) Mis on FIFO ajakava?
See on Hadoopi töö ajastamise algoritm. Selles FIFO ajakavas valib reporter töökohad tööreast, kõige vanem töö.
32) Mainige vaikepordi numbreid, millel Hadoopis töötavad ülesannete jälgija, NameNode ja tööjälgija
Vaikepordi numbrid, millel Hadoopis käitatavad ülesannete jälgija, NameNode ja tööjälgija on järgmised:
- Task tracker töötab 50060 pordil
- NameNode töötab pordil 50070
- Tööjälgija töötab 50030 sadamas
33) Kuidas blokeerida skanner HDFS-i andmesõlmes
Blokeerimisseadme keelamiseks HDFS-i andmesõlmes määrake dfs.datanode.scan.period.hours väärtuseks 0.
34) Kuidas määratleda kahe sõlme vaheline kaugus Hadoopis?
Kaugus on võrdne lähimate sõlmpunktide kauguse summaga. Kahe sõlme vahelise kauguse arvutamiseks kasutatakse meetodit getDistance ().
35) Miks kasutada Hadoopis kauba riistvara?
Kauba riistvara on lihtne hankida ja see on taskukohane. See on süsteem, mis ühildub Windowsi, MS-DOS-i või Linuxiga.
36) Määrake HDFS-i replikatsioonitegur
Replikatsioonitegur on faili koopiate koguarv süsteemis.
37) Milliseid andmeid on NameNode'is salvestatud?
Namenode salvestab HDFS-i metaandmed, nagu plokkide teave ja nimeruumi teave.
38) Mida mõtlete riiuliteadlikkuse all?
Haddop-klastris kasutab Namenode võrgu liikluse parandamiseks Datanode'i, lugedes või kirjutades mis tahes faili, mis on lähedal asuvale rackile lähemal, et seda lugeda või kirjutada. Namenode säilitab rackide teabe saamiseks iga DataNode'i racki ID-d. Seda kontseptsiooni nimetatakse Hadoopis rack-teadlikkuseks.
39) Millised on sekundaarse nimesõlme funktsioonid?
Järgnevad funktsioonid Secondary NameNode:
- FsImage, mis salvestab EditLogi ja FsImage'i failide koopiad.
- NameNode krahh: Kui NameNode jookseb kokku, saab sekundaarse NameNode'i FsImage'i abil NameNode'i uuesti luua.
- Kontrollpunkt: Secondary NameNode kasutab seda kinnitamaks, et HDFS-is pole andmeid rikutud.
- Värskendamine: see värskendab faile EditLog ja FsImage automaatselt. See aitab hoida FsImage-faili sekundaarses NameNode'is värskena.
40) Mis juhtub, kui NameNode on maas ja kasutaja esitab uue töö?
NameNode on Hadoopi rikke üks punkt, nii et kasutaja ei saa uut tööd esitada, ei saa seda täita. Kui NameNode on maas, võib töö ebaõnnestuda, kuna kasutaja peab enne mis tahes töö käivitamist ootama, kuni NameNode taaskäivitub.
41) Millised on reduktori põhifaasid Hadoopis?
Hadoopis on reduktori kolm põhifaasi:
1. Segamine: Reduktor kopeerib siin Mapperi väljundi.
2. Sorteeri: sortimisel sorteerib Hadoop sama klahvi abil reduktorile sisendi.
3. Vähenda: selles etapis vähendatakse võtmega seotud väljundväärtusi andmete koondamiseks lõplikku väljundisse.
42) Miks kasutab Hadoop kontekstiobjekti?
Hadoop raamistik kasutab ülejäänud süsteemiga suhtlemiseks kontekstobjekti koos klassiga Mapper. Kontekstiobjekt saab süsteemi konfiguratsiooni üksikasjad ja töö oma konstruktorisse.
Me kasutame kontekstiobjekti teabe edastamiseks setup (), cleanup () ja map () meetodites. See objekt muudab elutähtsa teabe kaardioperatsioonide ajal kättesaadavaks.
43) Määrake kombineerija Hadoopis
See on valikuline samm Mapi ja Reduce vahel. Combiner võtab väljundi funktsioonist Map, loob võtmeväärtuste paarid ja esitab selle Hadoop Reducerile. Combineri ülesanne on kokku võtta Mapi lõpptulemus identse võtmega kokkuvõtlikeks kirjeteks.
44) Mis on HDFS-is vaikimisi saadaval replikatsioonitegur, mida see näitab?
HDFS-is saadaval olev vaikereplikatsioonitegur on kolm. Vaikimisi replikatsioonitegur näitab, et igast andmest on kolm koopiat.
45) Mida sa mõtled Hadoopis andmete asukohast?
Big Data süsteemis on andmete maht tohutu ja seetõttu pole mõtet andmeid üle võrgu teisaldada. Nüüd proovib Hadoop arvutuse andmetele lähemale viia. Nii jäävad andmed salvestatud asukoha lokaalseks.
46) Määrake HDFS-is tasakaalustaja
HDFS-is on tasakaalustaja administraator, mida administraatorid kasutavad andmete tasakaalustamiseks DataNodes'i vahel ja liigutab plokid ülekasutatutest alakasutatud sõlmedesse.
47) Selgitage HDFS-is turvarežiimi
See on NameNode'i kirjutuskaitstud režiim klastris. Esialgu on NameNode Safemode'is. See takistab Safemode'i failisüsteemi kirjutamist. Sel ajal kogub see andmeid ja statistikat kõigilt DataNode'idelt.
48) Mis on jaotatud vahemälu tähtsus Apache Hadoopis?
Hadoopil on kasulik utiliitfunktsioon, nn hajutatud vahemälu, mis parandab tööde jõudlust rakenduste poolt kasutatavate failide vahemällu salvestamise abil. Rakendus saab vahemälu faili määrata, kasutades JobConfi konfiguratsiooni.
Hadoop raamistik muudab nende failide koopiad sõlmedeks, mille ülesanne tuleb täita. Seda tehakse enne ülesande täitmise alustamist. Hajutatud vahemälu toetab nii kirjutuskaitstud failide kui ka zip- ja purgifailide levitamist.
49) Mis on taru metapood?
See salvestab skeemi ja Hive tabeli asukoha.
Tarutabel määratleb, kaardistab ja metaandmed, mis on salvestatud Metastore'i. Seda saab salvestada JPOX-i toetatud RDBMS-i.
50) Mida tähendab tarus SerDe?
SerDe on Serializer või Deserializer lühike nimi. Tarus võimaldab SerDe lugeda tabelist andmeid ja kirjutada konkreetsele väljale suvalises vormingus.
51) Loetlege Hive'i andmemudelis saadaval olevad komponendid
Taru andmemudelis on järgmised komponendid:
- Tabelid
- Vaheseinad
- Ämbrid
52) Selgitage taru kasutamist Hadoopi ökosüsteemis.
Hive pakub liidest Hadoopi ökosüsteemi salvestatud andmete haldamiseks. Taru kasutatakse HBase tabelite kaardistamiseks ja nendega töötamiseks. Tarupäringud teisendatakse MapReduce'i töökohtadeks, et varjata MapReduce'i töökohtade loomise ja käitamisega seotud keerukust.
53) Hive toetab mitmesuguste keerukate andmetüüpide / kogude loendit
Hive toetab järgmisi keerukaid andmetüüpe:
- Kaart
- Struktuur
- Massiiv
- Liit
54) Selgitage, kuidas tarus olevat .hiverc-faili kasutatakse?
Tarus on .hiverc initsialiseerimisfail. See fail laaditakse algselt Hive'i käsurealiidese (CLI) käivitamisel. Parameetrite algväärtused saame määrata .hiverc-failis.
55) Kas Hive'is on võimalik ühe andmefaili jaoks luua rohkem kui üks tabel?
Jah, saame andmefaili jaoks luua rohkem kui ühe tabeliskeemi. Hive salvestab skeemi Hive Metastore'i. Selle skeemi põhjal saame samadelt andmetelt hankida erinevad tulemused.
56) Selgitage erinevaid tarus saadaval olevaid SerDe rakendusi
Tarus on saadaval palju SerDe rakendusi. Samuti võite kirjutada omaenda kohandatud SerDe juurutamise. Järgnevalt on toodud mõned kuulsad SerDe rakendused:
- OpenCSVSerde
- RegexSerDe
- PiiratudJSONSerDe
- ByteStreamTypedSerDe
57) Loetlege Hive'is saadaval olevad tabelit genereerivad funktsioonid
Allpool on loend tabelit genereerivatest funktsioonidest:
- Plahvatada (massiiv)
- JSON_tuple ()
- Virna ()
- Plahvatada (kaart)
58) Mis on kärjes viltune laud?
Viltune tabel on tabel, mis sisaldab veeru väärtusi sagedamini. Kui määrame tarus loomise ajal tabeli SKEWED, kirjutatakse viltused väärtused eraldi failidesse ja ülejäänud väärtused lähevad teise faili.
59) Loetlege MySQL-is loodud lause abil loodud objektid.
MySQL-is lause loomisega loodud objektid on järgmised:
- Andmebaas
- Indeks
- Tabel
- Kasutaja
- Menetlus
- Käivita
- Sündmus
- Vaade
- Funktsioon
60) Kuidas näha andmebaasi struktuuri MySQL-is?
MySQL-is andmebaasi struktuuri nägemiseks võite kasutada
DESCRIBE käsk. Selle käsu süntaks on DESCRIBE tabeli nimi ;.
61) Kuidas otsida MySQL-i tabeli veerus konkreetset stringi?
Veerus MySQL stringi otsimiseks kasutage regex-operaatorit. Siin saame määratleda ka erinevad regulaaravaldise tüübid ja otsida regexi kasutamist.
62) Selgitage, kuidas andmete analüüs ja suurandmed võivad ettevõtte tulusid suurendada?
Järgnevalt on toodud viisid, kuidas andmete analüüs ja suurandmed võivad ettevõtte tulusid suurendada:
- Kasutage andmeid tõhusalt, et tagada ettevõtte kasv.
- Suurendage kliendi väärtust.
- Analüütiliseks muutmine personali taseme prognooside parandamiseks.
- Organisatsioonide tootmiskulude kärpimine.