- İstatistik Araştırma Dergisi
- Vol: 13 Issue: 1
- Sağdan sansürlü veriler için veri madenciliği algoritmaları performanslarının karşılaştırılması...
Sağdan sansürlü veriler için veri madenciliği algoritmaları performanslarının karşılaştırılması
Authors : Saygın Diler, Yıldırım Demir
Pages : 34-47
View : 181 | Download : 139
Publication Date : 2023-07-26
Article Type : Research Article
Abstract :Veri madenciliği algoritmaları ile gerçekleştirilen modelleme çalışmaları bilgisayar teknolojisinin gelişmesiyle birlikte artış göstermiştir. Ancak bu algoritmalar ile yapılan çalışmalarda veri kalitesinin bozulması elde edilecek sınıflandırma performanslarında önemli rol oynamaktadır. Bu çalışmada veri madenciliği sınıflandırma algoritmalarının performanslarının veri kalitesini bozan etmenlerden biri olan sansürlü verinin veri setinde yer alması durumunda nasıl etkilendiği incelenmiştir. Sansürlü verilerinin etkisini veri setinde gösterilebilmesi amacı ile K en yakın komşu algoritması (kNN) imputasyon yöntemi kullanılmıştır. Daha sonra sınıflandırma algoritmalarından olan Naive Bayes (NB), Lojistik Regresyon (LR) ve K en yakın komşu algoritması (kNN) ile uygulamalar gerçekleştirilmiştir. Yöntemlerin performanslarının incelenmesi için simülasyon çalışması ve gerçek veri seti çalışmaları yapılmış, sonuçlar sunulmuştur. Analiz sonuçlarına göre, yüksek sansür seviyesinde ve düşük sansür seviyesinde Lojistik Regresyon algoritmasının sansür ile baş etmede dikkate değer performans gösterdiği belirlenmiştir. Ayrıca örneklem büyüklüğü arttıkça genel olarak algoritmaların doğru sınıflama performanslarının arttığı gözlenmiştir. Özetle büyük örneklemeli veri setlerinde Lojistik Regresyon algoritmasının doğru sınıflandırma oranı ile başarılı sınıflandırma performansı gösterdiği söylenebilir.Keywords : Sağdan sansürlü veri, Sınıflandırma, Veri madenciliği