- Fırat Üniversitesi Mühendislik Bilimleri Dergisi
- Vol: 33 Issue: 2
- Türkçe Metinlerde Otomatik Konu Tespiti
Türkçe Metinlerde Otomatik Konu Tespiti
Authors : Galip Aydin, Ibrahim Hallaç
Pages : 599-606
Doi:10.35234/fumbd.899917
View : 31 | Download : 8
Publication Date : 2021-09-15
Article Type : Research
Abstract :Bu çalışmada çevrimiçi kullanılabilecek bir konu tespit sistemi önerilmiştir. Gizli Dirichlet Ayırımı ile 4 farklı kategoriye ait toplam 400.000 haber dokümandan oluşan bir Türkçe derlem eğitilmiştir. Model, eğitim verisinde yer almayan, yeni gelen dokümanların konu tespitini yüksek başarı ile gerçekleştirebilmektedir. Konu modellerinin başarı değerlendirmesinde tutarlılık (coherence) değerine ek olarak sınıflandırma yöntemleri için geçerli olan kesinlik (precision), hassasiyet (recall), F-ölçümü gibi skorların elde edilmesine yönelik 2 farklı yaklaşım geliştirilmiştir. Bu yaklaşımlarda, konular ile dokümanların ait olduğu sınıfların eşleştirilmesinden yararlanılmıştır. İlk yaklaşımda, dokümanın ait olduğu sınıfa karşılık gelen konunun mevcut olup olmadığı üzerinden genel bir başarı ölçütü sunulmuştur. İkinci yaklaşımda ise modelin yüksek güven (confidence) ile gerçekleştirmediği tahminleri eleyen, "dokümanın en belirgin konusu, ait olduğu sınıftır” kabulüne göre bir eşik (threshold) değeri üzerinden değerlendirme yapılan bir ölçüt sunulmuştur.Keywords : Konu tespiti, Metin analizi, Gizli Dirichlet Ayırımı