Segadusmaatriks masinõppes NÄITEGA

Lang L: none (table-of-contents):

Anonim

Mis on segiajamise maatriks?

Segiajamise maatriks on masinõppe klassifitseerimise tulemuslikkuse mõõtmise tehnika. See on omamoodi tabel, mis aitab teil teada saada klassifikatsioonimudeli toimivust testiandmete kogumis, et teada oleks tõelised väärtused. Segadusmaatriksi mõiste on iseenesest väga lihtne, kuid sellega seotud terminoloogia võib veidi segadusse ajada. Siin antakse sellele tehnikale mõni lihtne selgitus.

Selles õpetuses saate teada,

  • Mis on segiajamise maatriks?
  • Segiajamise maatriksi neli tulemust
  • Segiajamise maatriksi näide:
  • Kuidas arvutada segiajamise maatriks
  • Muud olulised mõisted segiajamise maatriksi abil
  • Miks vajate segiajamise maatriksit?

Segiajamise maatriksi neli tulemust

Segiajamise maatriks visualiseerib klassifikaatori täpsust, võrreldes tegelikke ja ennustatud klasse. Binaarne segiajamise maatriks koosneb ruutudest:

Segaduste tabel
  • TP: tõeline positiivne: ennustatud väärtused on õigesti prognoositud tegelikuks positiivseks
  • FP: ennustatud väärtused ennustasid valesti tegelikku positiivset. st negatiivsed väärtused ennustatakse positiivseteks
  • FN: Vale negatiivne: positiivsed väärtused ennustatakse negatiivseteks
  • TN: tõene negatiivne: ennustatud väärtused on õigesti ennustatud tegeliku negatiivsena

Saate arvutada täpsusega test alates segadust maatriks:

Näide segiajamise maatriksist:

Segadusmaatriks on kasulik masinõppemeetod, mis võimaldab mõõta tagasikutsumise, täpsuse, täpsuse ja AUC-ROC kõverat. Allpool on toodud näide mõistete Tõeline Positiivne, Tõene Negatiivne, Vale Negatiivne ja Tõene Negatiivne tundmiseks.

Tõeline positiivne:

Te ennustasite positiivset ja see osutus tõeks. Näiteks olite ennustanud, et Prantsusmaa võidab maailmakarika, ja ta võitis.

Tõeline negatiivne:

Kui ennustasite negatiivset ja see on tõsi. Olite ennustanud, et Inglismaa ei võida ja see kaotas.

Valepositiivne:

Teie ennustus on positiivne ja see on vale.

Olite ennustanud, et võidab Inglismaa, kuid see kaotas.

Vale negatiivne:

Teie ennustus on negatiivne ja tulemus on samuti vale.

Olite ennustanud, et Prantsusmaa ei võida, kuid võitis.

Peaksite meeles pidama, et kirjeldame ennustatud väärtusi kas tõene või vale või positiivne ja negatiivne.

Kuidas arvutada segiajamise maatriks

Siin on samm-sammuline protsess segiajamise maatriksi arvutamiseks andmekaevanduses

  • 1. samm. Kõigepealt peate testima andmekogumit selle eeldatavate tulemuste väärtustega.
  • 2. samm. Ennustage kõik andmekogumi read.
  • 3. samm. Arvutage eeldatavad prognoosid ja tulemused:
  1. Iga klassi õigete ennustuste koguarv.
  2. Iga klassi valede ennustuste koguarv.

Pärast seda on need numbrid korraldatud allpool toodud meetoditega:

  • Iga maatriksi rida on seotud ennustatud klassiga.
  • Iga maatriksi veerg vastab tegelikule klassile.
  • Õige ja vale klassifikatsiooni koguarv kantakse tabelisse.
  • Klasside õigete ennustuste summa läheb selle klassi väärtuse ennustatud veergu ja eeldatavasse ritta.
  • Klassi valede ennustuste summa läheb selle klassi väärtuse eeldatavasse ritta ja selle konkreetse klassi väärtuse ennustatud veergu.

Muud olulised mõisted segiajamise maatriksi abil

  • Positiivne ennustav väärtus (PVV): see on väga lähedal täpsusele. Üks oluline erinevus kahe tähtaja vahel on see, et PVV arvestab levimust. Olukorras, kus klassid on täiesti tasakaalus, on positiivne ennustav väärtus sama mis täpsus.
  • Null-veamäär: seda terminit kasutatakse selleks, et määratleda, mitu korda oleks teie ennustus vale, kui suudate ennustada enamusklassi. Oma klassifikaatori võrdlemiseks võite seda pidada alusmõõdikuks.
  • F-skoor: F1-skoor on tõelise positiivse (tagasikutsumise) ja täpsuse kaalutud keskmine punktisumma.
  • Roc-kõver: Roc-kõver näitab tõelisi positiivseid protsesse valepositiivse määra suhtes erinevates lõikepunktides. See näitab ka kompromissi tundlikkuse (tagasikutsumine ja spetsiifilisus või tegelik negatiivne määr) vahel.
  • Täpsus: täpsusmõõdik näitab positiivse klassi täpsust. See mõõdab, kui tõenäoline on positiivse klassi ennustamine õige.

Maksimaalne punktisumma on 1, kui klassifikaator klassifitseerib kõik positiivsed väärtused täiuslikult. Üksnes täpsusest pole suurt abi, sest see eirab negatiivset klassi. Mõõdik on tavaliselt seotud mõõdiku tagasikutsumisega. Tagasikutsumist nimetatakse ka tundlikkuseks või tõeliseks positiivseks määraks.

  • Tundlikkus : tundlikkus arvutab õigesti tuvastatud positiivsete klasside suhte. See mõõdik annab teada, kui hea on mudel positiivse klassi ära tunda.

Miks vajate segiajamise maatriksit?

Siin on segiajamise maatriksi kasutamise plussid / eelised.

  • See näitab, kuidas mis tahes klassifikatsioonimudel on ennustuste tegemisel segaduses.
  • Segadusmaatriks annab ülevaate mitte ainult teie klassifikaatori tehtud vigadest, vaid ka tehtavate vigade tüüpidest.
  • See jaotus aitab teil ületada piirangu, mis on seotud ainult klassifitseerimise täpsuse kasutamisega.
  • Segiajamise maatriksi iga veerg tähistab selle ennustatud klassi eksemplare.
  • Segiajamise maatriksi iga rida tähistab tegeliku klassi eksemplare.
  • See annab ülevaate mitte ainult klassifikaatori tehtud vigadest, vaid ka tehtud vigadest.