- Bitlis Eren Üniversitesi Fen Bilimleri Dergisi
- Vol: 10 Issue: 3
- Combination of PCA with SMOTE Oversampling for Classification of High-Dimensional Imbalanced Data
Combination of PCA with SMOTE Oversampling for Classification of High-Dimensional Imbalanced Data
Authors : Guhdar A. A. Mulla, Yıldırım Demir, Masoud Hassan
Pages : 858-869
Doi:10.17798/bitlisfen.939733
View : 7 | Download : 2
Publication Date : 2021-09-17
Article Type : Research
Abstract :Dengesiz veri sınıflandırması, sınıflandırıcıların daha büyük veri sınıfına doğru çarpıtıldığı veri madenciliğinde yaygın bir konudur. Yüksek boyutlu çarpık (dengesiz) verilerin sınıflandırılması, daha zor olduğundan karar vericiler için büyük ilgi görmektedir. Değişkenlerin azaltıldığı bir süreç olan boyut küçültme yöntemi, yüksek boyutlu veri setlerinin belirli bir kayıpla daha kolay yorumlanmasına olanak tanır. Bu çalışmada, yüksek boyutlu verilerdeki dengesizlik problemini çözmek için SMOTE aşırı örneklemeyi temel bileşen analizi ile birleştiren bir yöntem önerilmiştir. Önerilen yöntemin etkinliğini değerlendirmek ve sınıflandırıcıların performansını belirlemek için Lojistik Regresyon, K-En Yakın Komşu, Karar Ağacı yöntemlerinden oluşan üç sınıflandırma algoritması ve iki ayrı veri kümesi kullanılmıştır. Sırasıyla, ham veri setleri, PCA, SMOTE ve SMOTE +PCA (SMOTE ve PCA) yöntemleriyle dönüştürülen veri setleri, verilen algoritmalarla analiz edilmiştir. Analizler WEKA ile yapılmıştır. Analiz sonuçları, neredeyse tüm sınıflandırma algoritmalarının PCA, SOMTE ve SMOTE+PCA yöntemlerini kullanarak sınıflandırma performanslarını iyileştirdiğini göstermektedir. Bununla birlikte, SMOTE yöntemi, verilerin yeniden dengelenmesi için PCA ve PCA+SMOTE yöntemlerinden daha verimli sonuçlar vermiştir. Deneysel sonuçlar ayrıca K-En Yakın Komşu sınıflandırıcısının diğer algoritmalara kıyasla daha yüksek sınıflandırma performansı sağladığını göstermektedir.Keywords : Sınıflandırma, Boyut azaltma, Dengesiz sınıflar, PCA, SMOTE aşırı örnekleme