Probleemide sildistamine ja varjatud Markovi mudel

Lang L: none (table-of-contents):

Anonim

Lausete sildistamine

Lause lausega sildistamine viitab verbi, nimisõna jms siltide lisamisele lause kontekstis. POS-siltide tuvastamine on keeruline protsess. Seega ei ole POS-i üldine märgistamine käsitsi võimalik, kuna mõnel sõnal võib olla lause ülesehituselt erinev (mitmetähenduslik) tähendus. Teksti teisendamine loendi vormis on oluline samm enne sildistamist, kuna iga loendis olev sõna on kindla sildi jaoks ühendatud ja loendatud. Selle paremaks mõistmiseks vaadake allolevat koodi

import nltktext = "Hello Guru99, You have to build a very good site, and I love visiting your site."sentence = nltk.sent_tokenize(text)for sent in sentence:print(nltk.pos_tag(nltk.word_tokenize(sent)))

VÄLJUND

[('Hello', 'NNP'), ('Guru99', 'NNP'), (',', ','), ('You', 'PRP'), ('have', 'VBP'), ('build', 'VBN'), ('a', 'DT'), ('very', 'RB'), ('good', 'JJ'), ('site', 'NN'), ('and', 'CC'), ('I', 'PRP'), ('love', 'VBP'), ('visiting', 'VBG'), ('your', 'PRP$'), ('site', 'NN'), ('.', '.')]

Koodi selgitus

  1. Kood nltk importimiseks (loomuliku keele tööriistakomplekt, mis sisaldab selliseid alamooduleid nagu lause tokenize ja word tokenize.)
  2. Tekst, mille sildid tuleb printida.
  3. Lause tokeniseerimine
  4. Sest silmus on realiseeritud, kus sõnad on tokeniseeritud lausest ja iga sõna silt trükitakse väljundina.

Korpuses on kahte tüüpi POS-märgendeid:

  • Reeglipõhine
  • Stohhastilised POS-märgistajad

1. Reeglipõhine POS-märgistaja: mitmetähendusliku tähendusega sõnade puhul kasutatakse reeglipõhist lähenemist kontekstuaalse teabe põhjal. Seda tehakse, kontrollides või analüüsides eelmise või järgmise sõna tähendust. Teavet analüüsitakse sõna ümbritsevast või selle enda seest. Seetõttu märgistatakse sõnu konkreetse keele grammatikareeglitega, näiteks suurtähtede ja kirjavahemärkidega. nt Brilli sildistaja.

2. Stohhastiline POS-märgistaja: selle meetodi puhul kasutatakse erinevaid lähenemisviise, näiteks sagedust või tõenäosust. Kui sõna on treeningkomplektis enamasti märgistatud kindla sildiga, siis testlauses antakse see just see silt. Sõnasilt ei sõltu mitte ainult oma, vaid ka eelmisest märgendist. See meetod pole alati täpne. Teine võimalus on arvutada lauses konkreetse sildi esinemise tõenäosus. Seega arvutatakse lõplik silt, kontrollides konkreetse sildiga sõna suurimat tõenäosust.

Varjatud Markovi mudel:

Märgistamisprobleeme saab modelleerida ka HMM-i abil. See käsitleb sisendmärke vaadeldavaks jadaks, samas kui silte peetakse peidetud olekuteks ja eesmärk on varjatud olekute järjestuse määramine. Näiteks x = x 1 , x 2 ,…, x n, kus x on märkide jada, samas kui y = y 1 , y 2 , y 3 , y 4 ... y n on peidetud jada.

Kuidas HMM-i mudel töötab?

HMM kasutab liitumisjaotust, mis on P (x, y), kus x on sisendjärjestus / märgijärjestus ja y on märgistusjärjestus.

Märgendi x järjestus on argmax y1… .yn p (x1, x2,… .xn, y1, y2, y3,…). Oleme tekstist sildid kategoriseerinud, kuid selliste siltide statistika on ülioluline. Nii et järgmine osa loeb neid silte statistiliseks uuringuks.