POS-i sildistamine NLTK-ga ja tükeldamine NLP-s (NÄITED)

POS-i sildistamine

POS-sildistamine ( kõnesildistamise osad) on protsess sõnade märgistamiseks teksti vormingus konkreetse kõneosa jaoks, lähtudes selle määratlusest ja kontekstist. Ta vastutab keeles teksti lugemise ja igale sõnale mõne konkreetse märgi (kõneosad) määramise eest. Seda nimetatakse ka grammatiliseks sildistamiseks.

Õpime näite NLTK kõne osa abil:

Sisend: kõik, mis meile lubab.

Väljund : [('Kõik', NN), ('kuni', TO), ('luba', VB), ('meie', PRP)]

POS-märgistamise näites osalevad toimingud:

Tokeniseeri tekst (word_tokenize)
rakendage pos_tag ülaltoodud sammule, mis on nltk.pos_tag (tokenize_text)

NLTK POS-siltide näited on järgmised:

Lühend	Tähendus
CC	kooskõlastav sidesõna
CD	kardinal
DT	määraja
EX	eksistentsiaalne seal
FW	võõrsõna
IN	eessõna / alluv sidesõna
JJ	See NLTK POS-märgend on omadussõna (suur)
JJR	omadussõna, võrdlev (suurem)
JJS	omadussõna, ülivõrde (suurim)
LS	nimekirja turg
MD	modaalne (võiks, tahtmine)
NN	nimisõna, ainsus (kass, puu)
NNS	nimisõna mitmus (desks)
NNP	pärisnimi, ainsus (sarah)
NNPS	pärisnimi, mitmus (indiaanlased või ameeriklased)
PDT	ettemääratleja (kõik, mõlemad, pooled)
POS	omastav lõpp (vanemad)
PRP	isiklik asesõna (tema, tema ise, tema, ise)
PRP $	omastav asesõna (tema, tema, minu, minu, meie)
RB	määrsõna (aeg-ajalt, kiiresti)
RBR	määrsõna, võrdlev (suurem)
RBS	määrsõna, ülivõrre (suurim)
RP	osake (umbes)
TO	lõpmatu marker (kuni)
UH	sekkumine (hüvasti)
VB	tegusõna (küsima)
VBG	verb gerund (otsustades)
VBD	tegusõna minevikus (palunud)
VBN	tegusõna mineviku käändsõna (taasühendatud)
VBP	tegusõna, olevik mitte ainsuse kolmas isik (mähis)
VBZ	tegusõna, olevik ainsuse 3. isikuga (alused)
WDT	wh-määraja (see, mis)
WP	wh- asesõna (kes)
WRB	mis- määrsõna (kuidas)

Ülaltoodud NLTK POS-märgendite loend sisaldab kõiki NLTK POS-märgendeid. NLTK POS-märgistajat kasutatakse lause iga sõna grammatilise teabe määramiseks. Kõigi POS NLTK pakettide installimine, importimine ja allalaadimine on lõpule jõudnud.

Mis on tükeldamine NLP-s?

Murenemist NLP on protsess võtta väikesteks tükkideks teabe ja rühma need suured üksused. Chunkingi peamine kasutusala on nimisõnade rühmade loomine. Seda kasutatakse lausele struktuuri lisamiseks, järgides regulaaravaldistega POS-märgistusi. Saadud sõnarühma nimetatakse "tükkideks". Seda nimetatakse ka madalaks parsimiseks.

Madalas parsimises on juurte ja lehtede vahel maksimaalselt üks tase, samas kui sügav parsimine koosneb rohkem kui ühest tasandist. Madalat parsimist nimetatakse ka kergeks parsimiseks või tükeldamiseks.

Tükeldamise reeglid:

Eelnevalt määratletud reegleid pole, kuid saate neid vastavalt vajadusele ja nõudmistele kombineerida.

Näiteks peate lausest märkima nimisõna, verbi (mineviku), omadussõna ja koordineeriva ristmiku. Reeglit saate kasutada järgmiselt

tükike: {*** ?}

Järgmine tabel näitab, mida tähis tähendab:

Sümboli nimi	Kirjeldus
.	Mis tahes tähemärk, välja arvatud uus rida
*	Sobita 0 või enam kordust
?	Sobitage 0 või 1 kordust

Nüüd kirjutame koodi, et reeglitest paremini aru saada

from nltk import pos_tagfrom nltk import RegexpParsertext ="learn php from guru99 and make study easy".split()print("After Split:",text)tokens_tag = pos_tag(text)print("After Token:",tokens_tag)patterns= """mychunk:{***?}"""chunker = RegexpParser(patterns)print("After Regex:",chunker)output = chunker.parse(tokens_tag)print("After Chunking",output)

Väljund

After Split: ['learn', 'php', 'from', 'guru99', 'and', 'make', 'study', 'easy']After Token: [('learn', 'JJ'), ('php', 'NN'), ('from', 'IN'), ('guru99', 'NN'), ('and', 'CC'), ('make', 'VB'), ('study', 'NN'), ('easy', 'JJ')]After Regex: chunk.RegexpParser with 1 stages:RegexpChunkParser with 1 rules:***?'>After Chunking (S(mychunk learn/JJ)(mychunk php/NN)from/IN(mychunk guru99/NN and/CC)make/VB(mychunk study/NN easy/JJ))

Kõnealuse Pythoni sildi ülaltoodud osa järeldus: "make" on verb, mida reegel ei hõlma, nii et seda ei märgistata mychunkina

Kasutage tükeldamise juhtumit

Tükeldamist kasutatakse olemite tuvastamiseks. Üksus on lause see osa, mille abil masin saab mis tahes kavatsuse väärtuse

Example:Temperature of New York.Here Temperature is the intention and New York is an entity.

Teisisõnu kasutatakse juppide alamhulkade valimiseks tükeldamist. Palun järgige allolevat koodi, et mõista, kuidas tükke kasutatakse märkide valimiseks. Selles näites näete graafikut, mis vastab nimisõna fraasile. Parema arusaamise jaoks kirjutame koodi ja joonistame graafiku.

Kood kasutusjuhtumi demonstreerimiseks

import nltktext = "learn php from guru99"tokens = nltk.word_tokenize(text)print(tokens)tag = nltk.pos_tag(tokens)print(tag)grammar = "NP: {?*}"cp =nltk.RegexpParser(grammar)result = cp.parse(tag)print(result)result.draw() # It will draw the pattern graphically which can be seen in Noun Phrase chunking

Väljund :

['learn', 'php', 'from', 'guru99'] -- These are the tokens[('learn', 'JJ'), ('php', 'NN'), ('from', 'IN'), ('guru99', 'NN')] -- These are the pos_tag(S (NP learn/JJ php/NN) from/IN (NP guru99/NN)) -- Noun Phrase Chunking

Graafik

Nimisõnafraasi tükeldav graafik

Graafiku põhjal võime järeldada, et "õppida" ja "guru99" on kaks erinevat märki, kuid need on liigitatud nimisõna fraasiks, samas kui märk "alates" ei kuulu nimisõna fraasi.

Tükeldamist kasutatakse erinevate märkide liigitamiseks samasse tükki. Tulemus sõltub valitud grammatikast. Edasist Chunking NLTK-d kasutatakse mustrite märgistamiseks ja tekstikorpuste uurimiseks.

Kokkuvõte

POS-i sildistamine NLTK-s on protsess sõnade tähistamiseks kõne konkreetse osa jaoks tekstiformaadis, lähtudes selle määratlusest ja kontekstist.
Mõned NLTK POS-i märgistamise näited on: CC, CD, EX, JJ, MD, NNP, PDT, PRP $, TO jne.
POS-märgistajat kasutatakse lause iga sõna grammatilise teabe määramiseks. Kõigi NLTK-ga kõnesildistamise pakettide installimine, importimine ja allalaadimine on lõpule viidud.
NLP-s tükeldamine on protsess, mille käigus võetakse kokku väike teave ja rühmitatakse need suurteks üksusteks.
Eelnevalt määratletud reegleid pole, kuid saate neid vastavalt vajadusele ja nõudmistele kombineerida.
Tükeldamist kasutatakse olemite tuvastamiseks. Üksus on lause see osa, mille abil masin saab mis tahes kavatsuse väärtuse
Tükeldamist kasutatakse erinevate märkide liigitamiseks samasse tükki.