NLTK Tokenize: sõnadega ja lausetega Tokenizer koos näitega

Mis on tokeniseerimine?

Tokeniseerimine on protsess, mille käigus suur hulk teksti jagatakse väiksemateks osadeks, mida nimetatakse tokenideks. Need märgid on mustrite leidmiseks väga kasulikud ja neid peetakse tuletamise ja lemmatiseerimise aluseks. Märgistamine aitab tundlikud andmeelemendid asendada ka tundlike andmeelementidega.

Loomuliku keele töötlemist kasutatakse selliste rakenduste loomiseks nagu teksti klassifitseerimine, intelligentne vestlusrobot, sentimentaalne analüüs, keele tõlkimine jne. Eespool nimetatud eesmärgi saavutamiseks on ülitähtis mõista teksti mustrit.

Esialgu ärge muretsege juurimise ja lemmimise pärast, vaid käsitlege neid tekstiandmete puhastamise sammuna NLP (loomuliku keele töötlemine) abil. Tuletamist ja lemmatiseerimist arutame hiljem õpetuses. Sellistes ülesannetes nagu teksti klassifitseerimine või rämpsposti filtreerimine kasutatakse NLP-d koos süvaõppe teekidega nagu Keras ja Tensorflow.

Natural Language tööriistakomplekt on väga oluline moodul NLTK tokenize lausete mis sisaldab lisaks sub-moodulid

sõna tokenize
lause tokenize

Sõnade tokeniseerimine

Lause jagamiseks sõnadeks kasutame meetodit sõna_tokenize () . Sõnamärgistuse väljundi saab masinaõppimise rakendustes teksti paremaks mõistmiseks teisendada andmeraamiks. Seda saab kasutada ka sisendina teksti edasistes puhastamisetappides, nagu kirjavahemärkide eemaldamine, numbrimärkide eemaldamine või juurutamine. Masinõppemudelid vajavad koolitamiseks arvulisi andmeid ja prognoosimist. Sõna tokeniseerimine muutub arvandmete teisendamise teksti (stringi) ülioluliseks osaks. Lugege palun sõnade koti või CountVectorizerit. Teooria paremaks mõistmiseks vaadake palun allpool sõna tokenize NLTK.

from nltk.tokenize import word_tokenizetext = "God is Great! I won a lottery."print(word_tokenize(text))Output: ['God', 'is', 'Great', '!', 'I', 'won', 'a', 'lottery', '.']

Koodi selgitus

moodul word_tokenize imporditakse NLTK teegist.
Muutuja "tekst" initsialiseeritakse kahe lausega.
Tekstimuutuja edastatakse moodulis word_tokenize ja trükitakse tulemus. See moodul jagab iga sõna kirjavahemärkidega, mida näete väljundis.

Lausete tokeniseerimine

Ülaltoodud jaoks saadaval olev alamoodul on send_tokenize. Teie meelest oleks ilmne küsimus, miks on vaja lause tokeniseerimist, kui meil on võimalus sõna tokenization . Kujutage ette, et peate arvestama ühe lause kohta keskmisi sõnu, kuidas arvutate? Sellise ülesande täitmiseks vajate suhte arvutamiseks nii NLTK lause tokenizerit kui ka NLTK word tokenizerit. Selline väljund on masinakoolituse oluline tunnus, kuna vastus oleks arvuline.

Vaadake allpool olevat NLTK-i tokenisaatori näidet, et teada saada, kuidas lause tokenization erineb sõnade tokenization'ist.

from nltk.tokenize import sent_tokenizetext = "God is Great! I won a lottery."print(sent_tokenize(text))Output: ['God is Great!', 'I won a lottery ']

Meil on sama sisendi jaoks 12 sõna ja kaks lauset .

Programmi selgitus:

Impordis moodul send_tokenize sarnaselt eelmisele programmile.
Oleme võtnud sama lause. Järgmine lause tokenizer NLTK moodulis sõelus need laused ja näitas väljundit. On selge, et see funktsioon rikub iga lause.

Sõna tokenizer kohal on Pythoni näited head seadistuskivid, et mõista sõna ja lause tokeniseerimise mehaanikat.

Kokkuvõte

Tokeniseerimine NLP-s on protsess, mille käigus suur hulk teksti jagatakse väiksemateks osadeks, mida nimetatakse tokenideks.
Loomuliku keele töötlemist kasutatakse selliste rakenduste loomiseks nagu teksti klassifitseerimine, intelligentne vestlusrobot, sentimentaalne analüüs, keelte tõlkimine jne.
Loomuliku keele tööriistakomplektil on väga oluline moodul NLTK, mis tokeniseerib lause, mis sisaldab lisaks alamooduleid
Lause jagamiseks sõnadeks kasutame meetodit sõna_tokenize (). NLTK-s oleva sõna tokenizer väljundi saab masinaõppimise rakendustes teksti paremaks mõistmiseks teisendada andmeraamiks.
Ülaltoodud jaoks saadaval olev alamoodul on send_tokenize. Lause tokenizer Python NLTK-s on masinakoolituse oluline funktsioon.