50 parimat andmeteaduse intervjuu küsimust ja vastust

Anonim

Järgnevad korduvküsimused värskete õppijate ja kogenud andmeteadlaste tööintervjuudel.

1. Mis on andmeteadus?

Data Science on kombinatsioon algoritmidest, tööriistadest ja masinõppe tehnikast, mis aitab teil antud algandmetest leida levinud varjatud mustreid.

2. Mis on logistiline regressioon andmeteaduses?

Logistilist regressiooni nimetatakse ka logit-mudeliks. See on meetod binaarse tulemuse prognoosimiseks ennustajate muutujate lineaarsest kombinatsioonist.

3. Nimetage kolme tüüpi eelarvamusi, mis võivad proovide võtmisel tekkida

Valimi moodustamise protsessis on kolme tüüpi eelarvamusi, mis on:

  • Valiku eelarvamus
  • Katvuse alusel kallutatud
  • Ellujäämise kallutatus

4. Arutage otsustuspuu algoritmi

Otsustuspuu on populaarne juhendatud masinõppe algoritm. Seda kasutatakse peamiselt regressiooni ja klassifikatsiooni jaoks. See võimaldab jagada andmekogumi väiksemateks alamhulkadeks. Otsustuspuu saab hakkama nii kategooriliste kui ka arvuliste andmetega.

5. Mis on priori tõenäosus ja tõenäosus?

Eelnev tõenäosus on sõltuva muutuja osakaal andmekogumis, tõenäosus on antud vaatleja klassifitseerimise tõenäosus mõne muu muutuja juuresolekul.

6. Selgitage soovitussüsteeme?

See on teabe filtreerimise tehnikate alaklass. See aitab teil ennustada eelistusi või hinnanguid, mille kasutajad tõenäoliselt tootele annavad.

7. Nimetage lineaarse mudeli kasutamise kolm puudust

Lineaarse mudeli kolm puudust on:

  • Vigade lineaarsuse eeldus.
  • Te ei saa seda mudelit kasutada kahend- ega tulemuste loendamiseks
  • Seal on palju ülepakutavaid probleeme, mida see ei suuda lahendada

8. Miks peate uuesti proovivõtu tegema?

Uuesti proovimine toimub allpool toodud juhtudel:

  • Valimistatistika täpsuse hindamine juhuslikult, asendades andmepunkti komplektiga või kasutades juurdepääsetavate andmete alamhulkadena
  • Vajalike testide tegemisel asendatakse andmepunktides sildid
  • Mudelite valideerimine juhuslike alamhulkade abil

9. Loetlege Pythoni teegid, mida kasutatakse andmete analüüsimiseks ja teaduslikeks arvutamiseks.

  • Teadlane
  • Pandad
  • Matplotlib
  • NumPy
  • SciKit
  • Merine

10. Mis on võimsuse analüüs?

Võimsusanalüüs on eksperimentaalse disaini lahutamatu osa. See aitab teil kindlaks teha valimi suuruse, mis on vajalik konkreetse suuruse mõju väljaselgitamiseks konkreetse kindlusastmega põhjusest. See võimaldab teil ka konkreetse tõenäosuse juurutada valimi suuruse piirangus.

11. Selgitage koostöö filtreerimist

Koostööfiltreerimine, mida kasutatakse õigete mustrite otsimiseks vaatepunktide, mitme andmeallika ja erinevate agentide abil.

12. Mis on kallutatus?

Kallutatus on teie mudelis kasutusele võetud viga masinõppe algoritmi liiga lihtsustamise tõttu. "See võib kaasa tuua alamvarustuse.

13. Arutlege naiivse naiivse Bayesi algoritmis?

Naiivse Bayesi algoritmi mudel põhineb Bayesi teoreemil. See kirjeldab sündmuse tõenäosust. See põhineb eelnevatel teadmistel tingimustest, mis võivad olla seotud selle konkreetse sündmusega.

14. Mis on lineaarne regressioon?

Lineaarne regressioon on statistiline programmeerimismeetod, kus muutuja "A" skoor ennustatakse teise muutuja "B" skoori põhjal. B-d nimetatakse ennustavaks muutujaks ja A-d kriteeriumimuutujaks.

15. Esitage erinevus eeldatava väärtuse ja keskmise väärtuse vahel

Need ei ole palju erinevusi, kuid mõlemaid mõisteid kasutatakse erinevates kontekstides. Keskmisele väärtusele viidatakse tavaliselt tõenäosusjaotuse arutamisel, eeldatavale väärtusele juhusliku muutuja kontekstis.

16. Mis on A / B testimise läbiviimise eesmärk?

AB-testimine, mida kasutati juhuslike eksperimentide läbiviimiseks kahe muutujaga A ja B. Selle testimismeetodi eesmärk on välja selgitada veebilehe muudatused strateegia tulemuse maksimeerimiseks või suurendamiseks.

17. Mis on ansambliõpe?

Ansambel on meetod mitmekesiste õppurite ühendamiseks, et improviseerida mudeli stabiilsust ja ennustavat jõudu. Ansambli õppemeetodeid on kahte tüüpi:

Kottimine

Kottimismeetod aitab teil rakendada sarnaseid õppijaid väikestes valimispopulatsioonides. See aitab teil lähemaid ennustusi teha.

Suurendamine

Suurendus on korduv meetod, mis võimaldab teil vaatluse kaalu kohandada, sõltuvalt viimasest liigitusest. Suurendamine vähendab eelarvamuste viga ja aitab teil luua tugevaid ennustavaid mudeleid.

18. Selgitage omaväärtust ja omavektorit

Omavektorid on mõeldud lineaarsete teisenduste mõistmiseks. Andmeteadlane peab arvutama kovariantsimaatriksi või korrelatsiooni omavektorid. Omaväärtused on suunad, kasutades spetsiifilisi lineaarseid teisendustoiminguid kokkusurumise, pööramise või venitamise teel.

19. Määratlege ristkinnitamise mõiste

Ristvalideerimine on valideerimistehnika, et hinnata, kuidas statistilise analüüsi tulemused üldistuvad sõltumatu andmekogumi jaoks. Seda meetodit kasutatakse taustades, kus prognoositakse eesmärki, ja tuleb hinnata, kui täpselt mudel saavutatakse.

20. Selgitage andmeanalüütika projekti samme

Järgnevad on analüüsiprojekti olulised sammud:

  • Mõistke äriprobleemi
  • Uurige andmeid ja uurige neid hoolikalt.
  • Valmistage andmed modelleerimiseks ette puuduvate väärtuste leidmisega ja muutujate teisendamisega.
  • Alustage mudeli käitamist ja analüüsige suurandmete tulemust.
  • Kinnitage mudel uue andmekogumiga.
  • Rakendage mudel ja jälgige tulemust, et analüüsida mudeli toimivust konkreetsel perioodil.

21. Arutage tehisnärvivõrke

Tehisnärvivõrgud (ANN) on spetsiaalne algoritmide komplekt, mis on masinõppe murranguliseks muutnud. See aitab teil kohaneda vastavalt muutuvale sisendile. Seega loob võrk parima võimaliku tulemuse ilma väljundikriteeriume ümber kujundamata.

22. Mis on selja levik?

Selja levik on närvivõrgu treeningu põhiolemus. See on meetod närvivõrgu kaalude häälestamiseks, mis sõltub eelmises ajastus saadud veamäärast. Nõuetekohane häälestamine aitab teil vähendada veamäära ja muuta mudeli üldistamise abil usaldusväärseks.

23. Mis on juhuslik mets?

Juhuslik mets on masinõppemeetod, mis aitab teil täita igat liiki regressiooni- ja liigitusülesandeid. Seda kasutatakse ka puuduvate väärtuste ja väljuvate väärtuste käsitlemiseks.

24. Mis on valiku kallutatuse tähtsus?

Valiku eelarvamused ilmnevad siis, kui analüüsitavate isikute, rühmade või andmete valimisel ei saavutata konkreetset randomiseerimist. See viitab sellele, et antud valim ei esinda täpselt populatsiooni, mida kavatseti analüüsida.

25. Mis on K-klastrite meetod?

K-klastrite moodustamine on oluline järelevalveta õppemeetod. Andmete klassifitseerimise tehnikat teatud klastrite komplekti abil nimetatakse K klastriteks. See on paigutatud grupeerimiseks, et välja selgitada andmete sarnasus.

26. Selgitage erinevust andmeteaduse ja andmeanalüütika vahel

Andmeteadlased peavad andmeid tükeldama, et saada väärtuslikke teadmisi, mida andmeanalüütik saab rakendada reaalsetes äristsenaariumides. Peamine erinevus nende kahe vahel on see, et andmeteadlastel on rohkem tehnilisi teadmisi kui ärianalüütikutel. Pealegi pole neil vaja andmete visualiseerimiseks vajalikku äri mõistmist.

27. Selgitage p-väärtust?

Kui teete statistikas hüpoteesi testi, võimaldab p-väärtus teil määrata tulemuste tugevuse. See on arvuline arv vahemikus 0 kuni 1. Väärtuse põhjal aitab see tähistada konkreetse tulemuse tugevust.

28. Määratlege mõiste süvaõpe

Sügav õppimine on masinõppe alamtüüp. See on seotud algoritmidega, mis on inspireeritud struktuurist, mida nimetatakse kunstlikeks närvivõrkudeks (ANN).

29. Selgitage andmete kogumise ja analüüsimise meetodit, et sotsiaalse meedia abil ilmastikutingimusi ennustada.

Sotsiaalmeedia andmeid saate koguda Facebooki, Twitteri, Instagrami API-de kaudu. Näiteks saame tweeteri jaoks konstrueerida igast säutsust mingi funktsiooni, nagu säutsutatud kuupäev, retweetid, jälgijate nimekiri jne. Seejärel saate ilmastikutingimuste ennustamiseks kasutada mitmemõõtmelist aegridamudelit.

30. Millal peate andmeteaduses algoritmi värskendama?

Algoritmi peate värskendama järgmises olukorras:

  • Soovite, et teie andmemudel areneks infrastruktuuri kasutavate andmevoogudena
  • Alusandmeallikas muutub

    Kui see on mittestatsionaarsus

31. Mis on normaalne jaotus

Normaaljaotus on pideva muutuja hulk, mis on jaotatud tavalisele kõverale või kellakõvera kujule. Võite pidada seda pidevaks tõenäosuse jaotuseks, mis on statistikas kasulik. Normaalse jaotuskõvera kasutamisel on kasulik analüüsida muutujaid ja nende seoseid.

32. Milline keel sobib tekstianalüütikaks kõige paremini? R või Python?

Python sobib tekstianalüütika jaoks paremini, kuna see koosneb rikkalikust raamatukogust, mida nimetatakse pandadeks. See võimaldab teil kasutada kõrgetasemelisi andmete analüüsimise tööriistu ja andmestruktuure, samas kui R seda funktsiooni ei paku.

33. Selgitage statistikateaduse kasutamise eeliseid

Statistika aitab andmeteadlasel paremini mõista kliendi ootusi. Statistilise meetodi abil saavad teadlased saada teadmisi tarbijate huvide, käitumise, seotuse, hoidmise jms kohta. See aitab teil luua ka tugevaid andmemudeleid teatud järelduste ja ennustuste kinnitamiseks.

34. Nimetage erinevaid süvaõppe raamistike tüüpe

  • Pytorch
  • Microsofti kognitiivne tööriistakomplekt
  • TensorFlow
  • Kohv
  • Kett
  • Keras

35. Selgitage automaatkooderit

Autokooderid õpivad võrgustikke. See aitab teil sisendid muuta vähemate vigade arvuga väljunditeks. See tähendab, et saate väljundi võimalikult sisendilähedaseks.

36. Määratlege Boltzmanni masin

Boltzmanni masinad on lihtne õppimisalgoritm. See aitab teil avastada neid funktsioone, mis esindavad treeninguandmetes keerulisi seaduspärasusi. See algoritm võimaldab teil optimeerida antud probleemi kaalu ja kogust.

37. Selgitage, miks andmete puhastamine on hädavajalik ja millist meetodit puhastate andmete säilitamiseks kasutate

Määrdunud andmed viivad sageli valede sisemusteni, mis võib kahjustada mis tahes organisatsiooni väljavaateid. Näiteks kui soovite korraldada sihitud turunduskampaaniat. Kuid meie andmed ütlevad teile valesti, et konkreetne toode on teie sihtrühma jaoks nõutav; kampaania ebaõnnestub.

38. Mis on viltu levitamine ja ühtlane jaotamine?

Viltune jaotus toimub siis, kui andmed on jaotatud graafiku ühel poolel, samas kui andmete levitamisel tuvastatakse ühtlane jaotus vahemikus võrdne.

39. Kui staatilises mudelis esineb alarajatisi?

Alajoonestumine toimub siis, kui statistiline mudel või masinõppe algoritm ei suuda andmete aluseks olevat suundumust tabada.

40. Mis on tugevdav õppimine?

Tugevdamine Õppimine on õppemehhanism selle kohta, kuidas olukordi tegevustega kaardistada. Lõpptulemus peaks aitama teil binaarset tasu signaali suurendada. Selles meetodis ei öelda õppijale, millist tegevust teha, vaid ta peab avastama, milline tegevus pakub maksimaalset tasu. Kuna see meetod põhineb tasu / karistuse mehhanismil.

41. Nimetage tavaliselt kasutatavaid algoritme.

Neli andmeteadlase kõige sagedamini kasutatavat algoritmi on:

  • Lineaarne regressioon
  • Logistiline taandareng
  • Juhuslik mets
  • KNN

42. Mis on täpsus?

Täpsus on kõige sagedamini kasutatav veamõõdik n klassifikatsioonimehhanism. Selle vahemik on 0 kuni 1, kus 1 tähistab 100%

43. Mis on ühemõõtmeline analüüs?

Analüüsi, mida rakendatakse ühele atribuudile korraga, nimetatakse ühemõõtmeliseks analüüsiks. Boxplot on laialt kasutatav ühemõõtmeline mudel.

44. Kuidas saate oma leidudega seotud väljakutsetest üle?

Minu ülesannete lahendamiseks on vaja julgustada arutelu, näitama juhtimist ja austama erinevaid võimalusi.

45. Selgitage klastri valimitehnikat andmeteaduses

Klastrivalimimeetodit kasutatakse juhul, kui sihtgrupi jaotumine on keeruline ja lihtsat juhuslikku valimist ei saa rakendada.

46. ​​Esitage erinevus valideerimiskomplekti ja testikomplekti vahel

Valideerimiskomplekti peetakse enamasti koolituskomplekti osaks, kuna seda kasutatakse parameetrite valimiseks, mis aitab teil vältida ehitatava mudeli ülereageerimist.

Kui testitud komplekti kasutatakse koolitatud masinõppemudeli jõudluse testimiseks või hindamiseks.

47. Selgitage mõistet Binomiaalse tõenäosuse valem?

"Binoomjaotus sisaldab iga võimaliku edukuse tõenäosust N-i katses sõltumatute sündmuste korral, mille esinemise tõenäosus on π."

48. Mis on tagasikutsumine?

Tagasikutsumine on tegeliku positiivse määra ja tegeliku positiivse määra suhe. See jääb vahemikku 0 kuni 1.

49. Arutage normaaljaotust

Normaaljaotus, mis on võrdselt jaotatud, on keskmine, mediaan ja režiim võrdsed.

50. Kuidas saate andmekogumiga töötades valida olulisi muutujaid? Seletama

Järgmisi muutuja valimise meetodeid saate kasutada:

  • Enne oluliste muutujate valimist eemaldage omavahel seotud muutujad
  • Kasutage lineaarset regressiooni ja valige muutujad, mis sõltuvad sellest p-väärtusest.
  • Kasutage valikuid Tagasi-, Edasi- ja Astmeline valik
  • Kasutage Xgboost, Random Forest ja plot muutuva tähtsuse tabelit.
  • Mõõtke antud funktsioonide kogumi teabe juurdekasvu ja valige vastavalt n parimat funktsiooni

51. Kas on võimalik tabada korrelatsiooni pideva ja kategoorilise muutuja vahel?

Jah, saame kasutada kovariantsitehnika analüüsi, et tabada seost pidevate ja kategooriliste muutujate vahel.

52. Kategoorilise muutuja käsitlemine pideva muutujana tooks kaasa parema ennustava mudeli?

Jah, kategoorilist väärtust tuleks pidada pidevaks muutujaks ainult siis, kui muutuja on oma olemuselt järjestuslik. Nii et see on parem ennustav mudel.