- Avrupa Bilim ve Teknoloji Dergisi
- Issue: 32 Special Issue
- Video Captioning Based on Multi-layer Gated Recurrent Unit for Smartphones
Video Captioning Based on Multi-layer Gated Recurrent Unit for Smartphones
Authors : Bengü FETİLER, Özkan ÇAYLI, Özge Taylan MORAL, Volkan KILIÇ, Aytuğ ONAN
Pages : 221-226
Doi:10.31590/ejosat.1039242
View : 18 | Download : 4
Publication Date : 2021-12-31
Article Type : Research
Abstract :Video altyazılama, bilgisayarlı görü (CV) ve doğal dil işleme (NLP) alanlarında ilgi çeken dilbilgisel ve anlamsal olarak anlamlı tanımlar oluşturan bir görsel anlama işlemidir. Mobil platformun hesaplama gücündeki son gelişmeler, CV ve NLP tekniklerini kullanan birçok video altyazılama uygulamasının önünü açmıştır. Bu video altyazılama uygulamaları, çoğunlukla, kodlayıcı üzerinde evrişimli sinir ağları (CNN'ler) ve kod çözücü üzerinde tekrarlayan sinir ağları (RNN’ler) kullanan internet bağlantısıyla çalışan kodlayıcı-kod çözücü yaklaşımına bağlıdır. Ancak, bu yaklaşım çevrimiçi veri aktarımından dolayı doğru altyazı sonuçları ve hızlı yanıt alma açısından yeterince güçlü değildir. Bu nedenle, bu bildiride, kodlayıcı-kod çözücü yaklaşımı anlamsal olarak daha uyumlu altyazı oluşturmak için çok katmanlı kapılı tekrarlayan birim (GRU) altında diziden dizeye yaklaşımı ile genişletilmiştir. Her video karesinin görüntü özelliklerinden görsel bilgiler, altyazı oluşturma amacıyla çok katmanlı GRU tabanlı kod çözücüyü beslemek için kodlayıcıdaki ResNet-101 CNN ile çıkarılır. Önerilen yaklaşım, sekiz performans metriği altında MSVD veri kümesi üzerinde deneyler kullanılarak gelişmiş yaklaşımlarla karşılaştırılmıştır. Ayrıca, önerilen yaklaşım internet bağlantısı olmadan daha hızlı altyazı üretme yeteneğine sahip, WeCap adlı, özel tasarlanmış Android uygulamamıza gömülmüştür.Keywords : Evrişimsel sinir ağı, Kapılı Tekrarlayan Birim, Doğal Dil İşleme, Video Altyazılama, Android Uygulama