- İstanbul Ticaret Üniversitesi Teknoloji ve Uygulamalı Bilimler Dergisi
- Vol: 2 Issue: 1
- METİN MADENCİLİĞİ KULLANARAK İNGİLİZCE DOKÜMAN SINIFLAMA
METİN MADENCİLİĞİ KULLANARAK İNGİLİZCE DOKÜMAN SINIFLAMA
Authors : Ahmet Görkem Özdoğan, Metin Turan
Pages : 37-46
View : 19 | Download : 5
Publication Date : 2019-07-01
Article Type : Other
Abstract :Günümüzde metin tabanlı dokümanların sınıflandırılması özellikle kurumsal yazışmaların ve dijital dokümantasyonun çok yapıldığı durumlarda ciddi öneme sahiptir. Metin yığınlarından benzer olanları sınıflandırma üretkenliği arttıran bir faktördür. Bu makalede tema ve alt kavramı tespit edilmiş dokümanlarda benzerliğin tespiti ile ilgili bir model önerilmiş ve deneysel bulgular değerlendirilmiştir. Dokümanlarda tema ve alt kavramların tespiti için kullanılabilecek anlamlı sözcüklerin belirlenmesi amacıyla Helmholtz prensibi temelli Gestalt teorisi kullanılmıştır. Sınama doküman veri seti spor ve eğitim temalarında olup, toplam 14 alt kavram belirlenmiştir.Daha sonra doküman kümesinden rastgele seçilen dokümanların birbirlerine olan benzerlikleri hesaplanmıştır. Önceden belirlenmiş sınıflara sahip dokümanlar için Kosinüs, Jaccard ve PMI benzerlik ölçütleri karşılaştırılmıştır. Benzerlik oranı toplam doküman benzerlikleri ortalama değerin üzerinde olan dokümanların tümü baz alındığında Kosinüs benzerlik ölçütü %75, Jaccard Indeks’i %40, PMI benzerlik ölçütü ise %55 başarı sağlamıştır. Buna rağmen doğruluk değerleri baz alındığında Kosinüs benzerlik ölçütü %80, Jaccard Indeks’i %65 ve aynı şekilde PMI benzerlik ölçütü de %65 başarı sağlamıştır. Her bir dokümanın benzerlik katsayılarının ortalamaları baz alınarak yapılan sınıflama ise anlamlı kelimelerin yüzdelik değerlerine göre farklı başarımlar elde edilmiştir. Bu bakımdan PMI benzerlik ölçütü anlamlı kelime dağılımlarına adaptif bir yaklaşım sergiler iken Kosinüs benzerlik ölçütünde ve Jaccard Indeks’inde herhangi bir iyileşme gözlemlenmemiştirKeywords : Metin sınıflandırma, noktasal karşılıklı bilgi, helmholtz prensibi, benzerlik metrikleri, kosinüs benzerlik ölçütü, noktasal ortak bilgi benzerlik ölçütü, jaccard benzerlik ölçütü