Natural Language Processing With Python's
Natural Language Processing With Python-Dalam bab ini, kita akan belajar tentang pemrosesan bahasa menggunakan Python.
Fitur-fitur berikut membuat Python berbeda dari bahasa lain
Python diinterpretasikan Kita tidak perlu mengkompilasi program Python kita sebelum mengeksekusinya karena interpreter memproses Python saat runtime.
Interaktif Kita bisa langsung berinteraksi dengan interpreter untuk menulis program Python kita.
Python berorientasi objek berorientasi objek dan membuat bahasa ini lebih mudah untuk menulis program karena dengan bantuan teknik pemrograman ini merangkum kode di dalam objek.
Pemula dapat dengan mudah mempelajari Python disebut juga sebagai bahasa pemula karena sangat mudah dipahami, dan mendukung pengembangan berbagai aplikasi.
Prasyarat
Versi terbaru dari Python 3 yang dirilis adalah Python 3.7.1 tersedia untuk Windows, Mac OS dan sebagian besar rasa OS Linux.
Untuk windows, kita bisa menuju link www.python.org/downloads/windows/ untuk mendownload dan menginstall Python.
Untuk MAC OS, kita dapat menggunakan tautan www.python.org/downloads/mac-osx/ .
Dalam kasus Linux, rasa Linux yang berbeda menggunakan manajer paket yang berbeda untuk instalasi paket baru.
Natural Language Processing With Python's
Misalnya, untuk menginstal Python 3 di Ubuntu Linux, kita dapat menggunakan perintah berikut dari terminal:
$sudo apt-get install python3-minimal
Untuk mempelajari lebih lanjut tentang pemrograman Python, baca tutorial dasar Python 3 – Python 3
Memulai dengan NLTK
Kita akan menggunakan library Python NLTK (Natural Language Toolkit) untuk melakukan analisis teks dalam bahasa Inggris. Toolkit bahasa alami (NLTK) adalah kumpulan pustaka Python yang dirancang khusus untuk mengidentifikasi dan menandai bagian ucapan yang ditemukan dalam teks bahasa alami seperti bahasa Inggris.
Menginstal NLTK
Sebelum kita mulai menggunakan NLTK, kita perlu menginstalnya. Dengan bantuan perintah berikut, kita dapat menginstalnya di lingkungan Python kita
pip install nltk
Jika kita menggunakan Anaconda, maka paket Conda untuk NLTK dapat dibangun menggunakan perintah berikut:
conda install -c anaconda nltk
Mengunduh Data NLTK
Setelah menginstal NLTK, tugas penting lainnya adalah mengunduh repositori teks preset sehingga dapat digunakan dengan mudah. Namun, sebelum itu kita perlu mengimpor NLTK seperti kita mengimpor modul Python lainnya. Perintah berikut akan membantu kami dalam mengimpor NLTK
import nltk
Sekarang, unduh data NLTK dengan bantuan perintah berikut
nltk.download()
Ini akan memakan waktu untuk menginstal semua paket NLTK yang tersedia.
Paket Lain yang Diperlukan
Beberapa paket Python lainnya seperti gensim dan pola juga sangat diperlukan untuk analisis teks serta membangun aplikasi pemrosesan bahasa alami menggunakan NLTK. paket dapat diinstal seperti yang ditunjukkan di bawah ini
sebagai bangsa
gensim adalah perpustakaan pemodelan semantik yang kuat yang dapat digunakan untuk banyak aplikasi. Kita dapat menginstalnya dengan mengikuti perintah
pip install gensim
pola
Ini dapat digunakan untuk membuat paket gensim bekerja dengan baik. Perintah berikut membantu dalam menginstal pola
pip install pattern
Tokenisasi
Tokenisasi dapat didefinisikan sebagai Proses memecah teks yang diberikan, menjadi unit yang lebih kecil yang disebut token. Kata, angka, atau tanda baca bisa menjadi tanda. Bisa juga disebut segmentasi kata.
Contoh
Input Tempat tidur dan kursi adalah jenis furnitur.
Kami memiliki paket berbeda untuk tokenisasi yang disediakan oleh NLTK. Paket-paket ini dapat kita gunakan sesuai dengan kebutuhan kita. Rincian paket dan pemasangan adalah sebagai berikut:
paket kirim_tokenize
Paket ini dapat digunakan untuk membagi teks masukan menjadi kalimat. Kita dapat mengimpornya dengan menggunakan perintah berikut
from nltk.tokenize import sent_tokenize
paket word_tokenize
Paket ini dapat digunakan untuk membagi teks input menjadi kata-kata. Kita dapat mengimpornya dengan menggunakan perintah berikut
from nltk.tokenize import word_tokenize
Paket WordPuncTokenizer
Paket ini dapat digunakan untuk membagi teks input menjadi kata-kata dan tanda baca. Kita dapat mengimpornya dengan menggunakan perintah berikut
from nltk.tokenize import WordPuncttokenizer
Stemming
Untuk alasan gramatikal, bahasa mencakup banyak variasi. Variasi dalam arti bahwa bahasa, bahasa Inggris dan juga bahasa lainnya, memiliki bentuk kata yang berbeda. Misalnya kata-kata seperti demokrasi, demokrasi, dan demokratisasi. Untuk proyek pembelajaran mesin, sangat penting bagi mesin untuk memahami bahwa kata-kata yang berbeda ini, seperti di atas, memiliki bentuk dasar yang sama. Itulah mengapa sangat berguna untuk mengekstrak bentuk dasar dari kata-kata ketika menganalisis teks.
Stemming adalah proses heuristik yang membantu mengekstrak bentuk dasar sebuah kata dengan memotong ujungnya.
Paket-paket berbeda untuk stemming yang disediakan oleh modul NLTK adalah sebagai berikut:
Paket Stemmer Porter
Algoritma Porter digunakan oleh paket stemming ini untuk mengekstrak bentuk dasar dari kata-kata. Dengan bantuan perintah berikut, kita dapat mengimpor paket ini
from nltk.stem.porter import PorterStemmer
Misalnya, 'write' akan menjadi output dari kata 'write' yang diberikan sebagai input untuk stemmer ini.
Paket Stemmer Lancaster
Algoritma Lancaster digunakan oleh paket stemming ini untuk mengekstrak bentuk dasar kata. Dengan bantuan perintah berikut, kita dapat mengimpor paket ini
from nltk.stem.lancaster import LancasterStemmer
Misalnya, 'post' akan menjadi output dari kata 'post' yang diberikan sebagai input untuk stemmer ini.
Paket Stemmer Bola Salju
Algoritma Snowball digunakan oleh paket stemming ini untuk mengekstrak bentuk dasar dari kata-kata. Dengan bantuan perintah berikut, kita dapat mengimpor paket ini
from nltk.stem.snowball import SnowballStemmer
Misalnya, 'write' akan menjadi output dari kata 'write' yang diberikan sebagai input untuk stemmer ini.
Lemmatisasi
Ini adalah cara lain untuk mengekstrak bentuk dasar kata, biasanya bertujuan untuk menghilangkan akhiran infleksional dengan menggunakan kosa kata dan analisis morfologis. Setelah lemmatisasi, bentuk dasar dari kata apapun disebut lemma.
Modul NLTK menyediakan paket-paket berikut untuk lemmatization:
Paket WordNetLemmatizer
Paket ini akan mengekstrak bentuk dasar sebuah kata tergantung pada apakah kata tersebut digunakan sebagai kata benda atau sebagai kata kerja. Perintah berikut dapat digunakan untuk mengimpor paket ini:
from nltk.stem import WordNetLemmatizer
Menghitung Tag POS–Chunking
Identifikasi part of speech (POS) dan frase pendek dapat dilakukan dengan bantuan chunking. Ini adalah salah satu proses penting dalam pemrosesan bahasa alami. Seperti yang kita ketahui tentang proses tokenisasi untuk pembuatan token, chunking sebenarnya memberi label pada token. Dengan kata lain, kita dapat mengatakan bahwa kita bisa mendapatkan struktur kalimat dengan bantuan proses chunking.
Contoh
Dalam contoh berikut, kita akan mengimplementasikan Noun-Phrase chunking, sebuah kategori chunking yang akan menemukan potongan frase kata benda dalam kalimat, menggunakan modul NLTK Python.
Pertimbangkan langkah-langkah berikut untuk menerapkan noun chunking:
Langkah 1: Definisi gramatikal dari Slice
Pada langkah ini, kita perlu mendefinisikan tata bahasa untuk chunking. Ini akan terdiri dari aturan, yang harus kita ikuti.
Langkah 2: Buat pengurai cuplikan
Selanjutnya, kita perlu membuat parser chunk. Itu akan mengurai tata bahasa dan memberikan output.
Langkah 3: Outputnya
Pada langkah ini, kita akan mendapatkan output dalam format pohon.
Menjalankan Skrip NLP
Mulailah dengan mengimpor paket NLTK
import nltk
Sekarang, kita perlu mendefinisikan kalimatnya.
Di Sini,
DT menentukan
VBP adalah kata kerja
JJ adalah kata sifat
IN adalah kata depan
NN adalah kata benda
sentence = [("a", "DT"),("clever","JJ"),("fox","NN"),("was","VBP"), ("jumping","VBP"),("over","IN"),("the","DT"),("wall","NN")]
Selanjutnya, tata bahasa harus diberikan dalam bentuk ekspresi reguler.
grammar = "NP:{<DT>?<JJ>*<NN>}"
Sekarang, kita perlu mendefinisikan parser untuk mengurai tata bahasa.
parser_chunking = nltk.RegexpParser(grammar)
Sekarang, parser akan mengurai kalimat sebagai berikut:
parser_chunking.parse(sentence)
Selanjutnya, output akan berada dalam variabel sebagai berikut: -
Output = parser_chunking.parse(sentence)
Sekarang, kode berikut akan membantu Anda menggambar output Anda dalam bentuk pohon.
output.draw()
Cara ganti akun domino island 100
Cara cheat higgs domino island mod
Akhir kata :