- İstatistik Araştırma Dergisi
- Cilt: 1 Sayı: 1
- Basılı Türkçe’nin Önemli Bazı İstatistiksel Özellikleri
Basılı Türkçe’nin Önemli Bazı İstatistiksel Özellikleri
Authors : Mehmet Emin Dalkiliç, Gökhan Dalkiliç
Pages : 113-130
View : 30 | Download : 22
Publication Date : 2002-04-15
Article Type : Research
Abstract :Bu çalışmanın amacı, basılı Türkçe’nin bazı istatistiksel değerlerinin belirlenmesidir. Derlenen istatistikler tekli, ikili, …, beşli harf gruplarının sıklık dağılımları, ilk/son harf çözümlemeleri, harf başına belirsizlik (entropi)ve fazlalık, rastgelelik endeksi, sözcük uzunluk dağılımı, sesli/sessiz harf oranı’nı içermektedir. Hürriyet gazetesinin internet arşivinden bir Türkçe külliyat (corpus) oluşturularak anılan değerler elde edilmiştir. Bununla yetinilmeyip, Türkçe’ye ilişkin öteki çalışmalar da kullanılarak, tüm bu çalışmaların ağırlıklı bileşkesi olan, bugüne kadar elde edilen en geniş Türkçe külliyat tabanı ve metin çeşitliliğine sahip, en kapsamlı sonuçlar elde edilmiştir. Farklı çalışmalarda elde edilen sonuçların birbiriyle uyumluluk derecesini belirlemek amacıyla bir benzerlik ölçütü geliştirilmiş ve mevcut çalışmaların sonuçlarına uygulanmıştır.Keywords : Türkçe’nin İstatistiksel Özellikleri, N-Gram Sıklık Dağılımları, Belirsizlik, İlk/Son Harf Çözümlemesi, Sözcük Uzunlukları, Sıralı Liste Benzerlik Ölçütü