POS-i sildistamine NLTK-ga ja tükeldamine NLP-s (NÄITED)

Lang L: none (table-of-contents):

Anonim

POS-i sildistamine

POS-sildistamine ( kõnesildistamise osad) on protsess sõnade märgistamiseks teksti vormingus konkreetse kõneosa jaoks, lähtudes selle määratlusest ja kontekstist. Ta vastutab keeles teksti lugemise ja igale sõnale mõne konkreetse märgi (kõneosad) määramise eest. Seda nimetatakse ka grammatiliseks sildistamiseks.

Õpime näite NLTK kõne osa abil:

Sisend: kõik, mis meile lubab.

Väljund : [('Kõik', NN), ('kuni', TO), ('luba', VB), ('meie', PRP)]

POS-märgistamise näites osalevad toimingud:

  • Tokeniseeri tekst (word_tokenize)
  • rakendage pos_tag ülaltoodud sammule, mis on nltk.pos_tag (tokenize_text)

NLTK POS-siltide näited on järgmised:

Lühend Tähendus
CC kooskõlastav sidesõna
CD kardinal
DT määraja
EX eksistentsiaalne seal
FW võõrsõna
IN eessõna / alluv sidesõna
JJ See NLTK POS-märgend on omadussõna (suur)
JJR omadussõna, võrdlev (suurem)
JJS omadussõna, ülivõrde (suurim)
LS nimekirja turg
MD modaalne (võiks, tahtmine)
NN nimisõna, ainsus (kass, puu)
NNS nimisõna mitmus (desks)
NNP pärisnimi, ainsus (sarah)
NNPS pärisnimi, mitmus (indiaanlased või ameeriklased)
PDT ettemääratleja (kõik, mõlemad, pooled)
POS omastav lõpp (vanemad)
PRP isiklik asesõna (tema, tema ise, tema, ise)
PRP $ omastav asesõna (tema, tema, minu, minu, meie)
RB määrsõna (aeg-ajalt, kiiresti)
RBR määrsõna, võrdlev (suurem)
RBS määrsõna, ülivõrre (suurim)
RP osake (umbes)
TO lõpmatu marker (kuni)
UH sekkumine (hüvasti)
VB tegusõna (küsima)
VBG verb gerund (otsustades)
VBD tegusõna minevikus (palunud)
VBN tegusõna mineviku käändsõna (taasühendatud)
VBP tegusõna, olevik mitte ainsuse kolmas isik (mähis)
VBZ tegusõna, olevik ainsuse 3. isikuga (alused)
WDT wh-määraja (see, mis)
WP wh- asesõna (kes)
WRB mis- määrsõna (kuidas)

Ülaltoodud NLTK POS-märgendite loend sisaldab kõiki NLTK POS-märgendeid. NLTK POS-märgistajat kasutatakse lause iga sõna grammatilise teabe määramiseks. Kõigi POS NLTK pakettide installimine, importimine ja allalaadimine on lõpule jõudnud.

Mis on tükeldamine NLP-s?

Murenemist NLP on protsess võtta väikesteks tükkideks teabe ja rühma need suured üksused. Chunkingi peamine kasutusala on nimisõnade rühmade loomine. Seda kasutatakse lausele struktuuri lisamiseks, järgides regulaaravaldistega POS-märgistusi. Saadud sõnarühma nimetatakse "tükkideks". Seda nimetatakse ka madalaks parsimiseks.

Madalas parsimises on juurte ja lehtede vahel maksimaalselt üks tase, samas kui sügav parsimine koosneb rohkem kui ühest tasandist. Madalat parsimist nimetatakse ka kergeks parsimiseks või tükeldamiseks.

Tükeldamise reeglid:

Eelnevalt määratletud reegleid pole, kuid saate neid vastavalt vajadusele ja nõudmistele kombineerida.

Näiteks peate lausest märkima nimisõna, verbi (mineviku), omadussõna ja koordineeriva ristmiku. Reeglit saate kasutada järgmiselt

tükike: {*** ?}

Järgmine tabel näitab, mida tähis tähendab:

Sümboli nimi Kirjeldus
. Mis tahes tähemärk, välja arvatud uus rida
* Sobita 0 või enam kordust
? Sobitage 0 või 1 kordust

Nüüd kirjutame koodi, et reeglitest paremini aru saada

from nltk import pos_tagfrom nltk import RegexpParsertext ="learn php from guru99 and make study easy".split()print("After Split:",text)tokens_tag = pos_tag(text)print("After Token:",tokens_tag)patterns= """mychunk:{***?}"""chunker = RegexpParser(patterns)print("After Regex:",chunker)output = chunker.parse(tokens_tag)print("After Chunking",output)

Väljund

After Split: ['learn', 'php', 'from', 'guru99', 'and', 'make', 'study', 'easy']After Token: [('learn', 'JJ'), ('php', 'NN'), ('from', 'IN'), ('guru99', 'NN'), ('and', 'CC'), ('make', 'VB'), ('study', 'NN'), ('easy', 'JJ')]After Regex: chunk.RegexpParser with 1 stages:RegexpChunkParser with 1 rules:***?'>After Chunking (S(mychunk learn/JJ)(mychunk php/NN)from/IN(mychunk guru99/NN and/CC)make/VB(mychunk study/NN easy/JJ))

Kõnealuse Pythoni sildi ülaltoodud osa järeldus: "make" on verb, mida reegel ei hõlma, nii et seda ei märgistata mychunkina

Kasutage tükeldamise juhtumit

Tükeldamist kasutatakse olemite tuvastamiseks. Üksus on lause see osa, mille abil masin saab mis tahes kavatsuse väärtuse

Example:Temperature of New York.Here Temperature is the intention and New York is an entity.

Teisisõnu kasutatakse juppide alamhulkade valimiseks tükeldamist. Palun järgige allolevat koodi, et mõista, kuidas tükke kasutatakse märkide valimiseks. Selles näites näete graafikut, mis vastab nimisõna fraasile. Parema arusaamise jaoks kirjutame koodi ja joonistame graafiku.

Kood kasutusjuhtumi demonstreerimiseks

import nltktext = "learn php from guru99"tokens = nltk.word_tokenize(text)print(tokens)tag = nltk.pos_tag(tokens)print(tag)grammar = "NP: {
?*}"cp =nltk.RegexpParser(grammar)result = cp.parse(tag)print(result)result.draw() # It will draw the pattern graphically which can be seen in Noun Phrase chunking

Väljund :

['learn', 'php', 'from', 'guru99'] -- These are the tokens[('learn', 'JJ'), ('php', 'NN'), ('from', 'IN'), ('guru99', 'NN')] -- These are the pos_tag(S (NP learn/JJ php/NN) from/IN (NP guru99/NN)) -- Noun Phrase Chunking

Graafik

Nimisõnafraasi tükeldav graafik

Graafiku põhjal võime järeldada, et "õppida" ja "guru99" on kaks erinevat märki, kuid need on liigitatud nimisõna fraasiks, samas kui märk "alates" ei kuulu nimisõna fraasi.

Tükeldamist kasutatakse erinevate märkide liigitamiseks samasse tükki. Tulemus sõltub valitud grammatikast. Edasist Chunking NLTK-d kasutatakse mustrite märgistamiseks ja tekstikorpuste uurimiseks.

Kokkuvõte

  • POS-i sildistamine NLTK-s on protsess sõnade tähistamiseks kõne konkreetse osa jaoks tekstiformaadis, lähtudes selle määratlusest ja kontekstist.
  • Mõned NLTK POS-i märgistamise näited on: CC, CD, EX, JJ, MD, NNP, PDT, PRP $, TO jne.
  • POS-märgistajat kasutatakse lause iga sõna grammatilise teabe määramiseks. Kõigi NLTK-ga kõnesildistamise pakettide installimine, importimine ja allalaadimine on lõpule viidud.
  • NLP-s tükeldamine on protsess, mille käigus võetakse kokku väike teave ja rühmitatakse need suurteks üksusteks.
  • Eelnevalt määratletud reegleid pole, kuid saate neid vastavalt vajadusele ja nõudmistele kombineerida.
  • Tükeldamist kasutatakse olemite tuvastamiseks. Üksus on lause see osa, mille abil masin saab mis tahes kavatsuse väärtuse
  • Tükeldamist kasutatakse erinevate märkide liigitamiseks samasse tükki.