Türkçe dilinde görüntü altyazısı: Veritabanı ve model

Yıldız, TuğbaSönmez, ElenaYılmaz, Berk DursunDemir, Ali EmreTürkçe dilinde görüntü altyazısı: Veritabanı ve modelGazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi2020Turkish image captioningTurkish MS COCOComputer visionNatural language processingCNN, RNNTürkçe görüntü altyazısıTürkçe MS COCO veri kümesibilgisayarla görmedoğal dil işlemeESATSAMy UniversityMy University2022-02-112022-02-112020trArticle1300-18841304-4915https://hdl.handle.net/11411/4447https://doi.org/10.17341/gazimmfd.597089https://search.trdizin.gov.tr/yayin/detay/3909352-s2.0-8509186918610.17341/gazimmfd.597089390935Q2WOS:000552077900027info:eu-repo/semantics/openAccessÖzet: Otomatik görüntü altyazısı, yapay zekânın hem bilgisayarla görme hem de doğal dil işleme alanlarını kapsamaktadır. Makine çevirisi alanındaki gelişmelerden ilham alan ve bu alanda başarılı sonuçlar veren kodlayıcı-kod çözücü tekniği, özellikle İngilizce için otomatik görüntü altyazısı oluşturma konusunda kullanılan mevcut yöntemlerden biridir. Bu çalışmada ise, Türkçe dili için otomatik görüntü altyazısı oluşturan bir model sunulmaktadır. Bu çalışma, verilen görüntülerin özelliklerini çıkarmaktan sorumlu olan, Evrişimsel Sinir Ağı (ESA) mimarisine sahip bir kodlayıcıyı, altyazı oluşturmaktan sorumlu olan, Tekrarlayan Sinir Ağı (TSA) mimarisine sahip bir kod çözücüsü ile birleştirerek, Türkçe MS COCO veri kümesi üzerinde Türkçe görüntü altyazısı kodlayıcı-kod çözücü modelini test etmektedir. Modelin performansı, yeni oluşturulan veri kümesinde insanlar tarafından değerlendirilirken, bir taraftan da BLEU, METEOR, ROUGE ve CIDEr gibi en yaygın değerlendirme ölçütleri kullanılarak değerlendirilmiştir. Sonuçlar, önerilen modelin performansının hem niteliksel hem de niceliksel olarak tatmin edici olduğunu göstermektedir. Çalışma sonunda hazırlanan, herkesin kullanımına açık bir Web uygulaması (http://mscococontributor.herokuapp.com/website/) sayesinde Türkçe dili için MS COCO görüntülerine ait Türkçe girişlerin yapıldığı bir ortam kullanıcıya sunulmuştur. Tüm görüntüler tamamlandığında, Türkçe diline özgü, karşılaştırmalı çalışmaların yapılabileceği bir veri kümesi tamamlanmış olacaktır.Abstract: Automatic image captioning is a challenging issue in artificial intelligence, which covers both the fields of computer vision and natural language processing. Inspired by the later advances in machine translation, a successful encoder-decoder technique is currently the state-of-the-art in English language captioning. In this study, we proposed an image captioning model for Turkish Language. This paper evaluates the encoderdecoder model on MS COCO database by coupling an encoder Convolutional Neural Network (CNN) -the component that is responsible for extracting the features of the given images-, with a decoder Recurrent Neural Network (RNN) -the component that is responsible for generating captions using the given inputs- to generate Turkish captions. We conducted the experiments using the most common evaluation metrics such as BLEU, METEOR, ROUGE and CIDEr. Results show that the performance of the proposed model is satisfactory in both qualitative and quantitative evaluations. Finally, this study introduces a Web platform (http://mscoco-contributor.herokuapp.com/website/), which is proposed to improve the dataset via crowdsourcing and free to use. The Turkish MS COCO dataset is available for research purpose. When all the images are completed, a Turkish dataset will be available for comparative studies.