- Avrupa Bilim ve Teknoloji Dergisi
- Issue: 32 Special Issue
- Veri Madenciliği Yöntemleri İle İşveren Sektörünün Sınıflandırılması
Veri Madenciliği Yöntemleri İle İşveren Sektörünün Sınıflandırılması
Authors : Elvan Kübra Doğan, Arafat Şentürk
Pages : 227-234
Doi:10.31590/ejosat.1039844
View : 12 | Download : 7
Publication Date : 2021-12-31
Article Type : Research
Abstract :Veri madenciliği algoritmalarının kullanımına hazır hale getirilmesi için, "Kaggle’da Veri Bilimi Anketi” isimli veri seti, veri madenciliği problem tanıma aşaması ile analiz edilmiştir. Analiz edilen veri seti ve karar verilen hedef doğrultusunda veri ön işleme aşaması da gerçekleştirilmiştir. Ön işleme aşaması çıktısı olarak elde edilen işlenmiş veri seti, veri madenciliği teknolojisi sınıflandırma yöntemine ait C4.5, Rastgele Orman ve K-En Yakın Komşu Algoritmaları ile modellenmiştir. Bu üç algoritmanın model başarı oranları hesaplanmıştır. Aralarındaki başarı oranı sapma değerleri analiz edilerek sapma değerlerine sebep olan durumlara değinilmiştir. Model başarı oranını etkileyen durumlara farklı bir açıdan daha bakılabilmesi için, bu üç algoritma ile yeni bir modelleme daha gerçekleştirilmiştir. İşlenmiş veri seti için karar verilen üç algoritma ve bu algoritmaların modelleme kriterleri ile gerçekleştirilen modelleme işlemi, orijinal veri seti kullanılarak da gerçekleştirilmiştir. İşlenmiş veri seti kullanılarak elde edilen modellerin başarı oranı hesaplamaları, orijinal veri seti için de hesaplanmış olup kıyaslamaları gerçekleştirilmiştir. Kullanılan veri seti, karar verilen yöntem, algoritma, algoritma kriter değerleri gibi model başarısını etkileyen etmenlerin kıyaslama işlemleri, gerçekleştirilen modelleme uygulamaları sayesinde somutlaştırılarak aktarılmıştır. Elde edilen bu kıyaslamalı örnekler referans alınarak, model başarı oranını etkileyen etmenler değerlendirilmiş olup, veri seti nitelik analizi ve Veri Madenciliği süreçleri hakkında sırasıyla çıkarımlar gerçekleştirilmiştir.Keywords : Veri Önişleme, C4.5, Rastgele Orman, KNN Algoritması, Karışıklık Matrisi, Model Başarı Oranı.