IDENTIFIKASI TOPIK ARTIKEL BERITA MENGGUNAKAN TOPIC MODELLING DENGAN LATENT DIRICHLET ALLOCATION
Abstract
Portal berita memberikan informasi yang sangat beragam, namun judul berita tidak dapat dijadikan acuan utama dalam penentuan topik suatu berita secara keseluruhan karena judul berita bersifat hipebola untuk menarik pembaca. Oleh karena itu, penelitian ini mengusulkan sistem identifikasi topik artikel berita menggunakan topic modelling dengan algoritma Latent Dirichlet Allocation (LDA). Tahapan penelitian diawali dengan pengambilan data secara otomatis dari situs web detik.com dan tempo.co dengan proses web scrapping, kemudian dilakukan preprocessing terhadap data. Ada 4 tahap preprocessing yaitu tokenization, case folding, stopword removal, dan stemming. Tahap terakhir adalah topic modelling dengan algoritma LDA. Topic modelling merupakan model statistik untuk menentukan inti atau topik pada kumpulan dokumen. Identifikasi topik dengan algoritma LDA  didasarkan pada probabilitas kemunculan kata dalam kumpulan dokumen. Penelitian ini menghasilkan topik yang paling sering muncul dalam portal berita kriminal adalah pembunuhan
References
Jamil, N. B. C. E, I. B. Ishak, F. Sidi, L. S. Affendy, A. Mamat, “A Systematic Review On The Profiling Of Digital News Portal For Big Data Veracityâ€, Procedia Computer Science, Vol. 72, 2015, pp. 390-397.
Haristya, Hersinta, F. Suwana dan I. Kurniana, “The Credibility Of News Portal In Indonesia: An Exploratory Studyâ€, 2012.
Alghamdi, dan K. Alfalqi, “A Survey Of Topic Modelling In Text Miningâ€, International Journal of Advanced Computer Science and Applications, vol. 6 no. 1, 2015, pp. 147-153.
Blei, “Probabilistic Topic Modelsâ€, Communications of the ACM, Vol 55, No.4, 2012.
Martin, dan M. Johnson, “More Efficient Topic Modelling Through A Noun Only Approachâ€, In Proceedings of Australasian Language Technology Association Workshop, 2015, pp. 111-115.
B. Putra, dan R. P. Kusumawardani, “Analisis Topik Informasi Publik Media Sosial Di Surabaya Menggunakan Pemodelan Latent Dirichlet Allocation (LDA)â€, Jurnal Tehnik ITS, Vol. 6, No. 2, 2017.
A. Alfanzar, Khalid, dan I. S. Rozas, “Topic modelling skripsi menggunakan metode Latent Dirichlet Allocationâ€, Jurnal Sistem Informasi, Vol. 7, No. 1, 2020.
T. Setijohatmo, S. Rachmat, T. Susilawati, Y. Rahman, “Analisis Metode Latent Dirichlet Allocation Untuk Klasifikasi Dokumen Laporan Tugas Akhir Berdasarkan Pemodelan Topikâ€, In Prosiding 11th Industrial Research Workshop and Natoonal Seminar (IRWNS), Vol. 11, No. 1, 2020.
M. L. C. Chilmi, “Latent Dirichlet Allocation (LDA) Untuk Mengetahui Topik Pembicaraan Warganet Twitter Tentang Omnibus Lawâ€, skripsi, Universitas Islam Negeri Syarif Hidayatullah, Jakarta, 2021.
Y Wang, J., Ge, Y. Zhou, Y. Feng, C. Li, Z. Li, X. Zhou, dan B. Luo, “Topic Model Based Text Similarity Measure for Chinese Judgment Documentâ€, ICPCSEE, 2017, pp. 42-54.
https://ipsaya.com/alexarank.php diakses pada 23 November 2021.
https:/www.wartaprima.com/sejarah-media-online-di-dunia-dan-di-indonesia diakses pada 20 November 2021.
https://www.crummy.com/software/BeautifulSoup/bs4/doc/ diakses 7 Desember 2021.
C. Fiarni, H. Maharani, and R. Pratama, “Sentiment Analysis System for Indonesia Online Retail Shop Review Using Hierarchy Naive Bayes Technique,†in International Conference on Information and Communication Technologies (ICoICT), 2016, pp. 212–217.
F. C. Permana, Y. Rosmansyah, and A. S. Abdullah, “Naive Bayes as opinion classifier to evaluate students satisfaction based on student sentiment in Twitter Social Media,†J. Phys. Conf. Ser., vol. 893, no. 1, 2017, pp. 0–9.
J. J. Stephen and P. Prabu, “Detecting the magnitude of depression in Twitter users using sentiment analysis,†Int. J. Electr. Comput. Eng., vol. 9, no. 4, 2019, pp. 3247–3255.
D. D. Albesta, M. L. Jonathan, M. Jawad, O. Hardiawan, and D. Suhartono, “The impact of sentiment analysis from user on Facebook to enhanced the service quality,†Int. J. Electr. Comput. Eng., vol. 11, no. 4,