- Bitlis Eren Üniversitesi Fen Bilimleri Dergisi
- Vol: 10 Issue: 4
- Balanced DATA by DBSCAN and Weighted Arithmetic Mean to Improve Performance of Machine Learning Algo...
Balanced DATA by DBSCAN and Weighted Arithmetic Mean to Improve Performance of Machine Learning Algorithms
Authors : Serkan Güldal
Pages : 1563-1574
Doi:10.17798/bitlisfen.985519
View : 8 | Download : 5
Publication Date : 2021-12-31
Article Type : Research
Abstract :Dijital teknolojinin gelişmesi, toplanan veri boyutlarının artan bir hızla artmasına neden olmuştur. Veri boyutundaki artış, dengesiz veri gibi yeni sorunları da beraberinde getirmektedir. Bir veri kümesi dengesizse, sınıflar eşit olarak dağıtılmaz. Bu nedenle, sınıflandırma algoritmaları veri kümeleri dengelenmiş gibi tasarlandığından, verilerin sınıflandırılması performans kayıplarına neden olur. Sınıflandırma çoğunluk sınıfını desteklerken, azınlık sınıfı genellikle yanlış sınıflandırılır. Toplanan veri kümelerinin, özellikle de tıbbi veri kümelerinin çoğunluğunun dengesiz dağılım sorunu vardır. Veri setlerinin dengesizliklerini azaltmak için son yıllarda çeşitli çalışmalar yapılmıştır. Genel anlamda, bu çalışmalar veri kümelerini dengelemek için yetersiz örnekleme, aşırı örnekleme veya her ikisidir. Bu çalışmada, sentetik numuneler üretmek için uzaklık ve ortalama tabanlı yeniden örnekleme yönteminin kullanıldığı bir aşırı örnekleme yöntemi önerilmiştir. Yeniden örnekleme işlemi için çiftler arasındaki uzaklıklar azınlık sınıfındaki Öklid uzaklığı ile hesaplanır. Hesaplanan mesafeler, yeterli sayıda çift elde etmek için DBSCAN yöntemi dikkate alınır. Yeni sentetik numuneler, Ağırlıklı Aritmetik Ortalama kullanılarak listelenen çiftler arasında oluşturulmuştur. Böylece veri seti 500 (çoğunluk) ve 535 (268 azınlık verisinden) olarak yeniden tasarlanmıştır. Ham ve dengeli veri kümelerini sınıflandırmak için Rassal Orman (RF) ve Destek Vektör Makinesi (SVM) algoritmaları kullanılmış ve sonuçlar birbirleriyle ve diğer metotlar (ROS, RUS ve SMOTE) ile kıyaslanmıştır. Sonuç, önerilen yöntemin listelenen tüm yöntemler arasında en iyi performansa sahip olduğunu göstermiştir. RF'nin doğruluk performansı, ham veriler ve yeniden örneklenmiş veriler için sırasıyla 0.751 ve 0.798'dir. Benzer şekilde, SVM'nin doğruluk performansı, ham veriler ve yeniden örneklenmiş veriler için sırasıyla 0.762 ve 0.781'dir.Keywords : Makine Öğrenimi, Rastgele Orman, Destek Vektör Makinesi, Sentetik Veri, Tıbbi Veri