Järelevalveta masinõpe: mis on, algoritmid, näide

Lang L: none (table-of-contents):

Anonim

Järelevalveta õppimine

Järelevalveta õppimine on masinõppe tehnika, mille puhul kasutajatel pole vaja mudelit jälgida. Selle asemel võimaldab see mudelil iseseisvalt töötada, et avastada varem avastamata mustreid ja teavet. See tegeleb peamiselt sildistamata andmetega.

Järelevalveta õppimise algoritmid

Järelevalveta õppimise algoritmid võimaldavad kasutajatel teostada juhendatud õppega võrreldes keerukamaid töötlemistoiminguid. Kuigi järelevalveta õppimine võib olla teiste looduslike õppemeetoditega võrreldes ettearvamatum. Järelevalveta õppimisalgoritmid hõlmavad klastreid, anomaaliate tuvastamist, närvivõrke jne.

Selles õpetuses saate teada:

  • Järelevalveta masinõppe näide
  • Miks järelevalveta õppimine?
  • Järelevalveta õppimise tüübid
  • Klastrid
  • Klastrite tüübid
  • Ühing
  • Juhendatud või järelevalveta masinõpe
  • Järelevalveta masinõppe rakendused
  • Järelevalveta õppimise puudused

Järelevalveta masinõppe näide

Võtame näiteks lapse ja tema perekoera juhtumi.

Ta tunneb seda koera ja teeb selle kindlaks. Mõni nädal hiljem toob peretuttav kaasa koera ja proovib lapsega mängida.

Baby pole seda koera varem näinud. Kuid see tunnistab paljusid funktsioone (2 kõrva, silma, 4 jalaga kõndimist) on nagu tema lemmikloom. Ta identifitseerib uue looma koerana. See on järelevalveta õppimine, kus teid ei õpetata, kuid õpitakse andmetest (antud juhul koera kohta käivatest andmetest). Kui see oleks olnud juhendatud õppimine, oleks peretuttav öelnud lapsele, et see on koer.

Miks järelevalveta õppimine?

Siin on järelevalveta õppe kasutamise peamised põhjused:

  • Järelevalveta masinõpe leiab andmetest igasuguseid tundmatuid mustreid.
  • Järelevalveta meetodid aitavad teil leida funktsioone, mis võivad kategooriate jaoks kasulikud olla.
  • See toimub reaalajas, nii et kõiki sisendandmeid tuleb õppijate juuresolekul analüüsida ja sildistada.
  • Märgistamata andmeid on arvutist lihtsam hankida kui sildistatud andmeid, mis vajavad käsitsi sekkumist.

Järelevalveta õppimise tüübid

Järelevalveta õpiprobleemid rühmitati klastrite ja assotsieerumise probleemideks.

Klastrid

Klasterdamine on järelevalveta õppimise puhul oluline mõiste. See tegeleb peamiselt struktuuri või mustri leidmisega kategoriseerimata andmete kogust. Klastrialgoritmid töötlevad teie andmeid ja leiavad loomulikud klastrid (rühmad), kui need andmetes olemas on. Samuti saate muuta, kui palju klastreid teie algoritmid peaksid tuvastama. See võimaldab teil kohandada nende rühmade täpsust.

Klastreid saab kasutada erinevat tüüpi:

Eksklusiivne (jaotamine)

Selles klastrimeetodis on andmed rühmitatud nii, et üks teave võib kuuluda ainult ühte klastrisse.

Näide: K-tähendab

Aglomeraat

Selles klastritehnikas on kõik andmed klastrid. Kahe lähima klastri vahelised iteratiivsed liidud vähendavad klastrite arvu.

Näide: hierarhiline klastrite moodustamine

Kattuv

Selles tehnikas kasutatakse andmete klastriks häguseid komplekte. Iga punkt võib kuuluda kahte või enamasse klastrisse, millel on eraldi liikmelisuse aste.

Siin seostatakse andmed sobiva liikmelisuse väärtusega. Näide: Fuzzy C-vahendid

Tõenäoline

See tehnika kasutab klastrite loomiseks tõenäosuse jaotust

Näide: märksõnade järgimine

  • "mehe king".
  • "naiste king".
  • "naiste kinnas".
  • "mehe kinnas".

saab rühmitada kahte kategooriasse "king" ja "kinnas" või "mees" ja "naised".

Klastrite tüübid

  • Hierarhiline klastrite moodustamine
  • K-tähendab klastrite moodustamist
  • K-NN (k lähimat naabrit)
  • Põhikomponentide analüüs
  • Ainsuse väärtuse lagunemine
  • Sõltumatu komponentide analüüs

Hierarhiline klasterdamine:

Hierarhiline klasterdamine on algoritm, mis loob klastrite hierarhia. See algab kõigi andmetega, mis on määratud nende enda klastrile. Siin asuvad kaks tihedat klastrit samas klastris. See algoritm lõpeb, kui alles on jäänud ainult üks klaster.

K-tähendab klastrit

K tähendab, et see on iteratiivne klastrialgoritm, mis aitab teil leida iga iteratsiooni kõrgeima väärtuse. Esialgu valitakse soovitud arv klastreid. Selles klastrimeetodis peate andmepunktid koondama k rühma. Suurem k tähendab väiksemaid rühmi, millel on ühtlasem detailsus. Madalam k tähendab väiksemaid detaile sisaldavaid suuremaid rühmi.

Algoritmi väljund on rühm "silte". See määrab andmepunkti ühele k rühmast. K-tähendab klastrite moodustamist, määratletakse iga rühm, luues igale rühmale tsentroidi. Tsentriidid on nagu klastri süda, mis lööb neile kõige lähemal olevad punktid ja lisab need kobarasse.

K-keskmine klasterdamine määratleb veel kaks alarühma:

  • Aglomeerunud klastrid
  • Dendrogramm

Aglomeerunud klastrid:

Seda tüüpi K-tähisega klastrid algavad kindla arvu klastritega. See jaotab kõik andmed klastrite täpseks arvuks. See klastrimeetod ei nõua sisendina klastrite arvu K Aardestamisprotsess algab kõigi andmete moodustamisest ühe klastrina.

See meetod kasutab mõnda kaugusemõõtu, vähendab protsesside ühendamise teel klastrite arvu (üks igas iteratsioonis). Lõpuks on meil üks suur klaster, mis sisaldab kõiki objekte.

Dendrogramm:

Dendrogrami klastrimeetodis tähistab iga tasand võimalikku klastrit. Dendrogrammi kõrgus näitab kahe liitumisparve sarnasuse taset. Mida lähemal protsessi põhjale, need on sarnasemad klastrid, mis on rühma leidmine dendrogrammist, mis pole loomulik ja enamasti subjektiivne.

K- Lähimad naabrid

K- lähim naaber on masinõppe klassifikaatoritest kõige lihtsam. See erineb teistest masinõppe tehnikatest selle poolest, et see ei tooda mudelit. See on lihtne algoritm, mis salvestab kõik saadaolevad juhtumid ja klassifitseerib uued eksemplarid sarnasuse mõõtme põhjal.

See töötab väga hästi, kui näidete vahel on vahemaa. Õppekiirus on aeglane, kui treeningkomplekt on suur, ja vahemaa arvutamine on ebaoluline.

Põhikomponentide analüüs:

Juhul, kui soovite kõrgema mõõtmega ruumi. Peate valima selle ruumi aluse ja ainult selle 200 kõige olulisema hinde. Seda alust tuntakse põhikomponendina. Teie valitud alamhulk on uus ruum, mille suurus on algse ruumiga võrreldes väike. See säilitab võimalikult palju andmete keerukust.

Ühing

Assotsiatsioonireeglid võimaldavad teil luua seoseid suurte andmebaaside andmeobjektide hulgas. See järelevalveta tehnika seisneb suurte andmebaaside muutujate huvitavate seoste avastamises. Näiteks inimesed, kes ostavad uue kodu, ostavad kõige tõenäolisemalt uut mööblit.

Muud näited:

  • Vähihaigete alarühm, mis on rühmitatud nende geeniekspressiooni mõõtmiste järgi
  • Ostjarühmad nende sirvimise ja ostude ajaloo põhjal
  • Filmigrupp filmivaatajate antud hinnangu järgi

Juhendatud või järelevalveta masinõpe

Parameetrid Juhendatud masinõppe tehnika Järelevalveta masinõppe tehnika
Sisendandmed Algoritme koolitatakse sildistatud andmete abil. Algoritme kasutatakse andmete suhtes, mis pole sildistatud
Arvutuslik keerukus Juhendatud õppimine on lihtsam meetod. Järelevalveta õppimine on arvutuslikult keeruline
Täpsus Väga täpne ja usaldusväärne meetod. Vähem täpne ja usaldusväärne meetod.

Järelevalveta masinõppe rakendused

Mõned järelevalveta masinõppevõtete rakendused on järgmised:

  • Klasterdamine jagas andmekogumi automaatselt rühmadesse, lähtudes nende sarnasustest
  • Anomaalia tuvastamine võib teie andmekogumist avastada ebatavalisi andmepunkte. See on kasulik pettuste leidmiseks
  • Assotsiatsiooni kaevandamine tuvastab üksuste kogumid, mis teie andmekogumis sageli esinevad
  • Varjatud muutujate mudeleid kasutatakse andmete eeltöötlemiseks laialdaselt. Nagu andmekogumi funktsioonide arvu vähendamine või andmekogumi mitmeks komponendiks lagundamine

Järelevalveta õppimise puudused

  • Andmete sortimise kohta ei saa täpset teavet ja järelevalve all õppimisel kasutatavate andmetena on väljund märgistatud ja teadmata
  • Tulemuste täpsus on väiksem, kuna sisendandmeid ei teata ja inimesed ei ole neile eelnevalt märgistanud. See tähendab, et masin nõuab seda ise.
  • Spektriklassid ei vasta alati informatsiooniklassidele.
  • Kasutaja peab kulutama aega selle klassifikatsiooni järgivate klasside tõlgendamisele ja siltidele.
  • Klasside spektraalsed omadused võivad aja jooksul ka muutuda, nii et ühelt pildilt teisele liikudes ei saa teil sama klassi teavet olla.

Kokkuvõte

  • Järelevalveta õppimine on masinõppe tehnika, mille puhul pole vaja mudelit jälgida.
  • Järelevalveta masinõpe aitab teil leida andmetest igasuguseid tundmatuid mustreid.
  • Klastrid ja assotsiatsioon on järelevalveta õppimise kaks liiki.
  • Neli tüüpi klastrimeetodeid on 1) eksklusiivne 2) aglomeraatne 3) kattuv 4) tõenäosuslik.
  • Olulised klastrite tüübid on: 1) hierarhiline klastrite moodustamine 2) K-tähendus klastrite moodustamine 3) K-NN 4) põhikomponentide analüüs 5) ainsuse väärtuste lagunemine 6) sõltumatu komponentide analüüs.
  • Assotsiatsioonireeglid võimaldavad teil luua seoseid suurte andmebaaside andmeobjektide hulgas.
  • Juhendatud õppes koolitatakse algoritme sildistatud andmete abil, samas kui järelevalveta õppes kasutatakse algoritme selliste andmete vastu, mis pole märgistatud.
  • Anomaaliate tuvastamine võib teie andmekogumist avastada olulisi andmepunkte, mis on kasulikud petturlike tehingute leidmiseks.
  • Järelevalveta õppimise suurim puudus on see, et andmete sortimise kohta ei saa täpset teavet.