- Bilgisayar Bilimleri
- Vol: 6 Issue: 2
- Classification of Documents Extracted from Images with Optical Character Recognition Methods
Classification of Documents Extracted from Images with Optical Character Recognition Methods
Authors : Ömer Aydın
Pages : 46-55
View : 18 | Download : 11
Publication Date : 2021-06-01
Article Type : Research
Abstract :Son on yılda, makine öğrenimi yöntemleri sürücüsüz arabalar, ses tanıma, etkili web araması ve insan genomunun çok daha iyi anlaşılması gibi birçok alanda katkı sağladı. Makine öğrenimi bugün o kadar yaygındır ki, muhtemelen farkında olmadan günde onlarca kez kullanılmaktadır. Bir makineye bazı süreçleri veya bazı durumları öğretmeye çalışmak, insan beyni tarafından tahmin edilmesi zor olan bazı sonuçları tahmin etmelerini sağlayabilir. Bu yöntemler aynı zamanda insan faaliyetleriyle genellikle kısa sürede yapılması imkânsız veya zor olan bazı işlemleri yapmamıza yardımcı olur. Bu nedenlerden dolayı, makine öğrenimi bugün çok önemlidir. Bu çalışmada, iki farklı makine öğrenimi yöntemi birleştirilmiştir. Gerçek dünyadaki bir sorunu çözmek için yapılan bu çalışmada, el yazması belgeleri önce bilgisayar ortamına aktarıldı ve sonra sınıflandırıldı. Tüm süreci gerçekleştirmek için üç temel yöntem kullanıldı. El yazısı veya basılı belgeler bir tarayıcı veya dijital kamera ile dijitalleştirilmiştir. Bu belgeler iki farklı optik karakter tanıma (OCR) işlemiyle işlenmiştir. Daha sonra üretilen metinler Naive Bayes algoritması kullanılarak sınıflandırılmıştır. Tüm proje Windows işletim sistemi üzerinde Microsoft Visual Studio 12 platformunda programlanmıştır. Çalışmanın tüm bölümlerinde C# programlama dili kullanılmıştır. Ayrıca hazırlanan bazı kodlar ve DLL'ler kullanılmıştır.Keywords : Optik karakter tanıma, OCR, Sınıflandırma, Naive Bayes, Makine Öğrenimi, Metin madenciliği, Görüntü işleme