Implementasi Metode TextRank dan Named Entity Recognition Untuk Ekstraksi Kata Kunci Pada Media Online Berita
DOI:
https://doi.org/10.25126/justsi.v5i1.401Abstrak
Kata kunci adalah bagian penting untuk memahami isi berita secara singkat dan mendukung indeksasi serta pencarian, proses identifikasi kata kunci yang efisien dan akurat sering kali menjadi tantangan dalam pengelolaan konten digital. Penelitian ini bertujuan untuk meningkatkan proses identifikasi kata kunci yang relevan dalam artikel berita online dengan memanfaatkan metode TextRank dan Named Entity Recognition (NER). NER digunakan untuk mengenali dan mengklasifikasikan entitas penting dalam teks, sementara TextRank, yang merupakan algoritma berbasis graf, digunakan untuk menentukan pentingnya kata berdasarkan struktur jaringan mereka. Gabungan dari kedua metode ini diharapkan dapat meningkatkan akurasi ekstraksi kata kunci. Teknik NER yang diimplementasikan adalah model bahasa Indonesia pada spaCy, yang dilatih khusus untuk tujuan ini. Selain itu, TF-IDF (Term Frequency-Inverse Document Frequency) digunakan untuk pembobotan kata dalam penerapan algoritma TextRank. Pada penelitian sebelumnya telah dilakukan ekstraksi kata kunci menggunakan kombinasi TextRank dan NER dalam bahasa Inggris, penelitian ini mengarah pada penggunaan kedua metode tersebut untuk mengekstraksi kata kunci dalam bahasa Indonesia, menggunakan data berita online dari Times Indonesia. Dari penelitian ini dapat dibuktikan, kinerja gabungan metode TextRank dan NER dalam mengekstraksi kata kunci dari artikel berita lebih baik dibandingkan dengan penggunaan TextRank secara tunggal. Hal ini dapat dilihat dari nilai rata-rata recall, precision, f-measure, dan accuracy yang dihasilkan dari eksperimen dengan 300 artikel dan weight multiplier 2 dengan nilai masing-masing 0.652, 0.645, 0.648, 0.505. Secara kesimpulan, integrasi TextRank dan NER dapat secara signifikan meningkatkan kualitas ekstraksi kata kunci dari artikel berita online.
##submission.downloads##
Diterbitkan
Cara Mengutip
Terbitan
Bagian
Lisensi
Hak Cipta (c) 2024 Muhammad Theofany Aulia Anwar, Satrio Hadi Wijoyo, Widhy Hayuhardhika Nugraha Putra
Artikel ini berlisensiCreative Commons Attribution-ShareAlike 4.0 International License.
- Penulis menyimpan hak cipta dan memberikan jurnal hak penerbitan pertama naskah secara simultan dengan lisensi di bawah Creative Common Attribution-ShareAlike 4.0 International (CC BY-SA 4.0) yang mengizinkan orang lain untuk berbagi pekerjaan dengan sebuah pernyataan kepenulisan pekerjaan dan penerbitan awal di jurnal ini.
- Penulis bisa memasukkan ke dalam penyusunan kontraktual tambahan terpisah untuk distribusi non ekslusif versi kaya terbitan jurnal (contoh: mempostingnya ke repositori institusional atau menerbitkannya dalam sebuah buku), dengan pengakuan penerbitan awalnya di jurnal ini.
- Penulis diizinkan dan didorong untuk mem-posting karya mereka online (contoh: di repositori institusional atau di website mereka) sebelum dan selama proses penyerahan, karena dapat mengarahkan ke pertukaran produktif, seperti halnya sitiran yang lebih awal dan lebih hebat dari karya yang diterbitkan. (Lihat Efek Akses Terbuka).