Text Mining Method in the Field of Health
Authors : Selçuk Toplu, Şengül Cangür
Pages : 236-246
Doi:10.18521/ktd.700789
View : 13 | Download : 8
Publication Date : 2020-06-04
Article Type : Research
Abstract :Amaç: Metinsel verileri sayısal hale getirerek veri madenciliği algoritmalarına uygulanmasını sağlayan metin madenciliği, günümüz dünyasında önemli bir yere sahiptir. Bu çalışmanın amacı, metin madenciliği yöntemini tanıtmak ve sağlık alanında belirlenen bir konuda uygulamasını göstermektir. Gereç ve Yöntem: Çalışmanın uygulama aşamasında; insan-ve-kanser” ve fare- ve-kanser” şeklinde belirlenen iki farklı konu başlığı altında en sık kullanılan Pubmed veritabanından ayrı ayrı elde edilen dokümanlara ve daha sonra birleştirilmiş dokümanlara Knime programı aracılığıyla metin madenciliği yöntemi uygulanmış ve K nearest neighbor (K-NN) algoritması kullanılarak doküman sınıflaması yapılmıştır. Bulgular: Etiket bulut grafiklerinde öne çıkan kelimeler "cell” (hücre) ve "cancer” (kanser) kelimeleridir. Her iki dokümanda frekans değeri yüksek çıkan "cell”, "cancer”, "tumor”, "patient” gibi kelimelerin veriler birleştirildikten sonra yapılan analizde de yüksek oranla çıktığı gözlenmiştir. 600 adet test dokümanının 255 tanesi insan-ve-kanser sınıfına, geri kalanının ise fare-ve-kanser sınıfına ait oldukları; F ölçütüne göre insan-ve-kanser dokümanları için %56,6’lık, fare-ve-kanser dokümanları için ise %62,6’lık doğru sınıflandırılma yüzdesi tespit edilmiştir. K-NN algoritması ile %59,8 oranında kısmen başarılı bir doküman sınıflama tahmini yapıldığı ancak Cohen kappa değerinin %19,7 olduğu ve bu uyumun zayıf düzeyde olduğu belirlenmiştir. Sonuç: Dijital ve basılı dokümanların sayısının oldukça fazla olduğu sağlık alanında hızlı ve güvenilir bir şekilde bilgi elde edebilmek için metin madenciliği yönteminden yararlanılması ve kullanımının yaygınlaştırılması önerilmektedir.Keywords : Metin Madenciliği, Sınıflandırma, Doğal Lisan İşleme, Pubmed