Rangkuman Text Preprocessing

Text Preprocessing atau Pra-pemrosesan Teks merupakan suatu proses pengubahan bentuk data tekstual yang belum terstruktur menjadi data yang terstruktur. Dalam proses ini terpadat beberapa tahapan yang harus dilakukan yaitu: case folding, tokenisasi, filtering, dan stemming. Masukan pada proses ini berupa sebuah data teks yang akan di proses, kemudian hasil dari proses ini berupa kumpulan dari kata yang berasal dari data yang diproses. Proses ini terkait dengan normalisasi data, yaitu dengan cara membersihkan data dan mengurangi noise dalam teks agar siap digunakan.

Langkah-langkah

1. Case Folding: Data yang awalnya terdiri dari campuran huruf kapital, huruf kecil, angka, dan tanda baca akan dihilangkan angka dan tanda bacanya kemudian untuk huruf kapital akan dijadikan huruf kecil. Proses ini bertujuan untuk mengkonversi data menjadi bentuk standar.
2. Tokenisasi: Data akan dipotong perkata sehingga terbentuk kumpulan kata.
3. Filtering: Menghilangkan kata yang dianggap kurang penting. Kata-kata yang dimaksud merupakan stopwords. Stopwords adalah kata-kata yang tidak deskriptif yang dapat dibuang, berikut merupakan contoh dari stopwords: “adalah, aku, anda, bahwa, bahkan, yang, dan, yaitu, ini, itu, dan lain-lain”. Data stopword dapat diambil dari jurnal Fadillah Z Tala berjudul ”A Study of Stemming Effects on Information Retrieval in Bahasa Indonesia”
4. Stemming: Mecari bentuk dasar dari suatu kata, setiap kata akan dicari bentuk dasarnya. Untuk mengimplementasikan stemming dapat menggunakan algoritma yang dibuat oleh Bobby Nazief dan Mirna Adriani.

Hasil dan Pembahasan

Misalnya terdapat sebuah data "Kejutan BRI BRItama !!! No.Rekening anda resmi dapat hadiah Rp.27 juta, Kode PIN Pemenang (02599875) U/Info klik www.programbri.tk Terima Kasih."

1. Case Folding

Contoh Proses Case Folding.

Pada contoh di atas proses case folding merubah semua huruf menjadi huruf kecil, kemudian menghilangkan semua tanda baca ! . , ( ) / serta angka yang terdapat pada kalimat awal. Hasil yang didapat adalah kalimat dengan huruf kecil tanpa tanda baca dan angka.

2. Tokenisasi

Contoh Proses Tokenisasi.

Pada contoh di atas kalimat dipecah menjadi kumpulan kata.

3. Filtering

Contoh Proses Filtering.

Pada contoh di atas kata "anda" dan "dapat" merupakan stopword sehingga harus dihilangkan dari kumpulan kata.

4. Stemming

Contoh Proses Stemming.

Pada contoh di atas berhasil ditemukan kata dasar dari kata "kejutan" dan "pemenang" yaitu "kejut" dan "menang". Kata yang merupakan kata dasar tidak akan berubah, sementara kata yang tidak ditemukan kata dasarnya dianggap sebagai kata dasar.

Kesimpulan

1. Text Preprocessing bertujuan untuk mengolah text menjadi bentuk standard sehingga mudah untuk diolah lebih lanjut.

2. Text Preprocessing dapat diimplementasikan menggunakan case folding, tokenisasi, filtering, dan stemming.

3. Hasil dari Text Preprocessing berupa kumpulan kata dasar yang bukan merupakan stopwords.

Rangkuman Text Preprocessing

Langkah-langkah

Hasil dan Pembahasan

Kesimpulan

You May Also Like

Tidak ada komentar:

gtm

Trending Post

Recent Posts

Blog Archive

Popular Posts

Tags

Feature Posts

Categories

Recent Posts