- Bilgisayar Bilimleri
- Vol: IDAP-2021 : 5th International Artificial Intelligence and Data Processing symposium Issue: Special Öz
- Creating a Parallel Corpora for Turkish-English Academic Translations
Creating a Parallel Corpora for Turkish-English Academic Translations
Authors : Ilhami Sel, Hüseyin Üzen, Davut Hanbay
Pages : 335-340
Doi:10.53070/bbd.990959
View : 30 | Download : 13
Publication Date : 2021-10-20
Article Type : Research
Abstract :Paralel corpora aynı anlama gelen cümlelerin farklı dillerde temsil edilmesiyle oluşturulan veri setleridir. Makine çeviri sistemlerinde kaliteyi belirleyen en önemli öğelerden birisi büyük miktarda ve yüksek kalitede oluşturulmuş paralel corporadır. Türkçe – İngilizce dil çifti için oluşturulan bu tür veriler genellikle yetersizdir. Bu çalışmada Türkçe – İngilizce dilleri arasında akademik çeviriler için kullanılabilecek büyük miktarda paralel corpora oluşturulmuştur. Bu veri seti oluşturulurken lisansüstü tezlerinin özet kısımları kullanılmıştır. Vecalign ve Hunalign gibi cümle hizalama algoritmaları kullanılarak en iyi eşleştirmeler elde edilmiştir. Yapılan çalışmalar sonucunda 1M paralel cümle çifti elde edilmiştir. Ayrıca elde edilen verinin kalitesini ölçebilmek için Bi-LSTM tabanlı çeviri sistemi oluşturulmuştur. Oluşturulan model TED(Tr-En) test seti üzerinde sıfır vuruş öğrenme (zero shot learning) yöntemiyle 15.8 Bleu puanı elde etmiştir.Keywords : Paralel Corpora, Sinirsel Makine Çevirisi, Cümle Hizalama, Doğal Dil İşleme.