- Politeknik Dergisi
- Vol: 25 Issue: 3
- Text Authorship Identification Based On Ensemble Learning and Genetic Algorithm Combination in Turki...
Text Authorship Identification Based On Ensemble Learning and Genetic Algorithm Combination in Turkish Text
Authors : Merve Güllü, Hüseyin Polat
Pages : 1287-1297
Doi:10.2339/politeknik.992493
View : 9 | Download : 2
Publication Date : 2022-10-01
Article Type : Research
Abstract :İnternet ve sosyal medya aracılığıyla bilgiye ulaşmanın kolaylaşması ve veri arama, kopyalama ve yayma olanaklarının geniş olması, belirli bir metin için yazar belirlemede bazı sorunlara neden olmuştur. Bir metin, onu yazan kişinin karakteristik özelliklerini taşır ve bu özellikler onun yazarını belirlemek için kullanılabilir. Bu çalışma için, Türkçe metinlerde yazar tespiti için topluluk öğrenme algo-ritması (TÖA) ve genetik algoritma (GA) kullanan bir yaklaşıma dayalı bir yöntem sunuyoruz. 40 yazar ve 3269 metinden oluşan ham veri seti Türkçe haber sitelerinden oluşturulmuş ve ön işleme aşamasında analiz edilmiştir. Daha sonra veriler üzerinde sözdi-zimsel ve yapısal analizler yapılmış ve toplamda 6 farklı veri seti oluşturulmuştur. Veri setlerinin her biri, GA ve TÖA yaklaşımı birlikte kullanılarak öznitelik seçim sürecine tabi tutulmuştur. Bir önceki adımdan elde edilen veri setlerinin her biri, TÖA'nın Naive Bayes, K-En Yakın Komşu, Yapay Sinir Ağları, Destek Vektör Makinesi ve Karar Ağacı olmak üzere 5 farklı sınıflandırıcı içeren torbalama yöntemi kullanılarak sınıflandırılmıştır. Ham verilere yukarıda bahsedilen işlemler uygulandıktan sonra yazar belirleme yaklaşımı %89 doğruluğa ulaşmıştır. TÖA ve GA kombinasyonu, bir metnin yazarını belirlemek için güçlü bir potansiyele sahiptir.Keywords : yazar tespiti, topluluk öğrenme, genetik algoritma, özellik seçimi