- Erciyes Üniversitesi Fen Bilimleri Enstitüsü Dergisi
- Vol: 36 Issue: 3
- Yeniden Örnekleme Teknikleri Kullanarak SMS Verisi Üzerinde Metin Sınıflandırma Çalışması
Yeniden Örnekleme Teknikleri Kullanarak SMS Verisi Üzerinde Metin Sınıflandırma Çalışması
Authors : Özer Çelik, Gürkan Kaplan
Pages : 433-442
View : 8 | Download : 3
Publication Date : 2020-12-31
Article Type : Research
Abstract :SMS, mobil cihaz kullanıcılarının iletişimlerinde kullandıkları önemli araçlardan biridir. Günümüzde kullanıcıların almış olduğu çoğu bilginin kaynağı cep telefonlarıdır. Teknolojideki gelişmelerle birlikte cep telefonlarına gelen mesajların içeriği geniş bir alana yayılmakla beraber istenilen kaynaktan gelip gelmediği önemli bir konu teşkil etmektedir. Metin sınıflandırma çalışmalarında Türkçe çalışmaların azlığı dikkat çekicidir. Bu çalışmada çok sayıda kullanıcının telefonlarına gelen mesajlar incelenmiş ve veri ön işleme gibi çeşitli iyileştirme aşamalarından geçirilerek bir araya getirilmiştir. Bu aşamalardan sonra mevcut mesaj içerikleri makine öğrenmesi teknikleri aracılığıyla metin sınıflandırma uygulanarak incelenmiştir. Elde edilen veriler normal, reklam ve spam olacak şekilde 3 farklı kategoriye ayrılmıştır. Ayrıca dengesiz olan veri setini dengeli hale getirmek için Synthetic Minority Oversampling Technique (SMOTE), Condensed Nearest Neighbour (CNN), Undersampling Technique ve Random Undersampling Technique (RUS) uygulanarak sınıflandırma performansları incelenmiştir. 4203 adet SMS’in yer aldığı veri seti üzerinde yapılan çalışma sonucunda en iyi sonucu veren (OACC değerine göre) sınıflandırmalar SMOTE’ta yaklaşık %80.1 ile Lojistik Regresyon, CNN’de yaklaşık %62.1 ile XGBoost ve RUS’ta yaklaşık %73.8 ile Lojistik Regresyon olmuştur.Keywords : Metin Sınıflandırma, Makine Öğrenmesi, Yapay Zeka, Smote, SMS