Text Preprocessing atau Pra-pemrosesan Teks merupakan suatu proses pengubahan bentuk data tekstual yang belum terstruktur menjadi data yang terstruktur. Dalam proses ini terpadat beberapa tahapan yang harus dilakukan yaitu: case folding, tokenisasi, filtering, dan stemming. Masukan pada proses ini berupa sebuah data teks yang akan di proses, kemudian hasil dari proses ini berupa kumpulan dari kata yang berasal dari data yang diproses. Proses ini terkait dengan normalisasi data, yaitu dengan cara membersihkan data dan mengurangi noise dalam teks agar siap digunakan.
Langkah-langkah
1. Case Folding: Data yang awalnya terdiri dari campuran huruf kapital, huruf kecil, angka, dan tanda baca akan dihilangkan angka dan tanda bacanya kemudian untuk huruf kapital akan dijadikan huruf kecil. Proses ini bertujuan untuk mengkonversi data menjadi bentuk standar.2. Tokenisasi: Data akan dipotong perkata sehingga terbentuk kumpulan kata.
3. Filtering: Menghilangkan kata yang dianggap kurang penting. Kata-kata yang dimaksud merupakan stopwords. Stopwords adalah kata-kata yang tidak deskriptif yang dapat dibuang, berikut merupakan contoh dari stopwords: “adalah, aku, anda, bahwa, bahkan, yang, dan, yaitu, ini, itu, dan lain-lain”. Data stopword dapat diambil dari jurnal Fadillah Z Tala berjudul ”A Study of Stemming Effects on Information Retrieval in Bahasa Indonesia”
4. Stemming: Mecari bentuk dasar dari suatu kata, setiap kata akan dicari bentuk dasarnya. Untuk mengimplementasikan stemming dapat menggunakan algoritma yang dibuat oleh Bobby Nazief dan Mirna Adriani.
Hasil dan Pembahasan
Misalnya terdapat sebuah data "Kejutan BRI BRItama !!! No.Rekening anda resmi dapat hadiah Rp.27 juta, Kode PIN Pemenang (02599875) U/Info klik www.programbri.tk Terima Kasih."
1. Case FoldingContoh Proses Case Folding. |
Pada contoh di atas proses case folding merubah semua huruf menjadi huruf kecil, kemudian menghilangkan semua tanda baca ! . , ( ) / serta angka yang terdapat pada kalimat awal. Hasil yang didapat adalah kalimat dengan huruf kecil tanpa tanda baca dan angka.
2. Tokenisasi
Contoh Proses Tokenisasi. |
Pada contoh di atas kalimat dipecah menjadi kumpulan kata.
3. Filtering
Contoh Proses Filtering. |
Pada contoh di atas kata "anda" dan "dapat" merupakan stopword sehingga harus dihilangkan dari kumpulan kata.
4. Stemming
Contoh Proses Stemming. |
Pada contoh di atas berhasil ditemukan kata dasar dari kata "kejutan" dan "pemenang" yaitu "kejut" dan "menang". Kata yang merupakan kata dasar tidak akan berubah, sementara kata yang tidak ditemukan kata dasarnya dianggap sebagai kata dasar.
Kesimpulan
1. Text Preprocessing bertujuan untuk mengolah text menjadi bentuk standard sehingga mudah untuk diolah lebih lanjut.
2. Text Preprocessing dapat diimplementasikan menggunakan case folding, tokenisasi, filtering, dan stemming.
3. Hasil dari Text Preprocessing berupa kumpulan kata dasar yang bukan merupakan stopwords.
Rangkuman Text Preprocessing
Reviewed by Syafriansyah Muhammad
on
6/20/2019
Rating:
Tidak ada komentar: