Normalisasi Teks Komentar Instagram Masyarakat Makassar Menggunakan Metode Levenshtein Distence

Siti Tuhpatussania

Abstract

Pertumbuhan pengguna internet dan pengguna instagram di indonesia dapat menjadi peluang yang baik untuk menggali potensi yang dapat digunakan untuk media promosi, sentiment analysis, segmentasi costumer, mapping opinion, menangkap umpan balik (feedback) pelanggan untuk meningkatkan layanan jasa atau barang yang kita tawarkan. Di instagram sendiri banyak tersebar komentar-komentar yang sulit dipelajari oleh mesin dikarenakan banyaknya penggunaan leksikon bahasa gaul atau karena typo atau bisa dikarenakan penggunaan bahasa daerah secara parsial di tiap komentar.
Hal inilah yang perlu dievaluasi dalam tahap pre-processing komentar, lebih tepatnya pada tahap normalisasi teks. Seperti di kota makassar misalkan komentar yang tersebar pada akun-akun terkenal di kota tersebut kadang menggabungkan kata baku bahasa indonesia, bahasa gaul indonesia, bahasa baku makassar dan bahasa gaul makassar. Hal inilah yang mendorong penulis untuk mencoba memecahkan masalah normalisasi teks untuk semua komentar ke bahasa baku indonesia agar mempermudah dalam hal pengolahan selanjutnya menggunakan metode levenshtein distence. Dalam hasil pengujian didapatkan masih kurang maksimal dalam normalisasi teks, penulis menduga dikarenakan kata gaul makassar yang ternyata memiliki imbuhan, penggalian morfologi kata yang tidak dilakukan serta belum menerapkan frasa detection untuk bahasa makassar

Keywords

Normalisasi Teks;Levenshtein Distence; Scraping; Instagram;

Full Text:

PDF

Refbacks

  • There are currently no refbacks.