Osmanlıcadan Türkçeye Uçtan Uca Aktarım
Authors : Ishak Dölek, Atakan Kurt
Pages : 1-10
View : 11 | Download : 6
Publication Date : 2022-06-29
Article Type : Research
Abstract :Bu makalede Osmanlıca Dokümanların Modern Türkçeye Uçtan Uca aktarımı adlı proje sunulmuştur. Devlet arşivleri, kütüphaneleri ve özel koleksiyonlarda milyonlarca Osmanlıca doküman bulunmaktadır. Bunların Modern Türkçeye elle aktarımı mümkün değildir. Osmanlica.com adresinde kullanıma açılan bu projede Osmanlıca dokümanların Türkçe 3 adımda aktarımı yapılmaktadır: (i) Osmanlıca karakter tanıma (OCR) (ii) Osmanlıca-Türkçe Alfabe Çevrisi (iii) Osmanlıca-Türkçe Çeviri. Bildiğimiz kadarıyla, bu proje Osmanlıca-Türkçe aktarım sürecinin üç adımını da çözmeyi hedefleyen ilk projedir. Bu adımların her biri NLP ve Derin Öğrenmede teknik ve bilimsel olarak karmaşık ve kaynak gerektiren problemlerdir. Birinci adımda doküman görüntüleri OCR ile Osmanlı alfabesinde düz metine dönüştürülür. İkinci adımda Arap-tabanlı Osmanlı alfabesindeki bu metin bir alfabe çevrisi sistemiyle Latin-tabanlı Türk alfabesine dönüştürülür. Türk alfabesindeki metin her ne kadar okunabilir olsa da çok sayıda Arapça ve Farsça kelime ve yapı barındırdığı için henüz anlaşılabilir değildir. Üçüncü adım bu metin makine çevirisi ile Modern Türkçeye aktarılır. Birinci adımda geliştirilen CRNN tabanlı OCR modeli 21 sayfalık bir veri setinde test edilmiş ve %96 karakter tanıma doğruluk oranı üretmiştir. İkinci adımda geliştirilen alfabe çeviri sistemi 7500 kelimelik bir veri setiyle test edilmiş ve %98 kelime çeviri doğruluk oranı üretmiştir. Üçüncü adım için kelime grubu tabanlı bir makine çeviri sistemi geliştirilmiş ve testlerine başlanmıştır. Bu projenin önemli bir sosyal, kültürel ve bilimsel probleme katkı sağladığı için değerli bir çalışma olduğunu düşünüyoruz.Keywords : Osmanlıca OCR, Osmanlıca-Türkçe alfabe çevirisi, Osmanlıca-Türkçe harfçevrim, Osmanlıca-Türkçe dil çevirisi