Türkçe-İngilizce sinirsel makine çeviri sistemi

Sel, İlhami

Türkçe-İngilizce sinirsel makine çeviri sistemi

Tarih

2024

Yazarlar

Sel, İlhami

Yayıncı

İnönü Üniversitesi

Erişim Hakkı

info:eu-repo/semantics/openAccess

Özet

Düşük kaynaklı dil çiftlerinde çeviri sistemlerinin geliştirilmesi, dil veri setlerinin yetersizliği nedeniyle önemli zorluklar içerir. Bu tür dillerde yeterli miktarda ve çeşitlilikte paralel külliyatın bulunmaması, modellerin eğitimi ve doğruluğu üzerinde olumsuz etkiler yaratır. Özellikle, Türkçe-İngilizce gibi dil çiftlerinde, morfolojik zenginlik ve dil bilgisel yapı farklılıkları, çeviri sistemlerinin hassasiyetini artıran faktörlerdir. Çeviri sistemlerinin bu zorlukların üstesinden gelebilmesi için ileri seviye makine öğrenimi tekniklerine ve veri artırma yöntemlerine ihtiyaç vardır. Bununla birlikte, düşük kaynaklı diller için transfer öğrenimi ve sıfırdan öğrenme gibi yöntemler de giderek önem kazanmaktadır. Bu alandaki ilerlemeler, çeviri kalitesini artırarak dil bariyerlerini aşmayı ve bilgiye erişimi küresel ölçekte yaygınlaştırmayı hedeflemektedir. Bu tez çalışmasında, Türkçe-İngilizce dil çiftinde düşük kaynak sorununu ortadan kaldırabilmek için ilk olarak web kazıma yöntemleri ve cümle hizalama algoritmalarıyla 1.2 milyon paralel cümleye sahip büyük bir paralel külliyat oluşturulmuştur. Bu külliyat, Türkçe ve İngilizce arasındaki çeviri sistemlerinin eğitimi ve doğruluğu açısından önemli bir temel sağlamaktadır. Ayrıca külliyatın oluşturulması diğer düşük kaynaklı diller için de önemli bir yol önermektedir. Ön eğitimli dil modelleri güncel doğal dil işleme uygulamalarında aktif olarak kullanılmaktadır. Bu sebeple sinirsel makine çeviri görevlerine dahil edilmesi için ek çalışmalar yapılmıştır. Bu çalışmalardan ilki Türkçe dil anlama görevlerinde farklı stratejilerle oluşturulmuş ön eğitimli dil modellerinin başarısının test edilmesidir. Oluşturulan farklı mimarilerle yapılan karşılaştırmalar sonucunda Bert dil modelinin Türkçe için başarılı sonuçlar elde ettiği görülmüştür. Dil modelleri üzerine yapılan ikinci çalışma da ise çok dilli ön eğitimden geçirilmiş modellerin çeviri sistemlerine uyarlanması üzerine deneyler yapılmıştır. Transfer öğrenme için parametre verimli olarak oluşturulan çeviri sistemi hesaplama maliyeti ve çeviri kalitesi açısından başarılı sonuçlar elde etmiştir. Son olarak çeviri sisteminin daha doğal, akıcı ve dil bilgisel doğruluğu artırabilmek için çeviri sistemi oluşturulmuştur. Bu sistem de öz dikkat mimarisine sahip kodlayıcı kod çözücü mimarisi Türkçe-İngilizce çeviriler yapmak için kullanılmıştır. Ön eğitimli dil modeli ise çevirilerde akıcılığı artırmak için kullanılmıştır. Bu çeviri sistemi için yeni bir sığ füzyon yöntemi önerilmiştir. Önerilen yöntemde ilk çalışma da oluşturulan paralel külliyat ve sonraki çalışmalarda kullanılan dil modelleri ile geliştirilmiştir.
Developing translation systems for low-resource language pairs presents significant challenges due to the lack of adequate language datasets. The absence of a sufficient amount and variety of parallel corpora in such languages negatively impacts the training and accuracy of the models. Especially for language pairs like Turkish-English, morphological richness and differences in grammatical structures are factors that increase the sensitivity of translation systems. Advanced machine learning techniques and data augmentation methods are needed for translation systems to overcome these challenges. Moreover, methods such as transfer learning and zero-shot learning for low-resource languages are gaining importance. Advances in this field aim to improve translation quality, overcome language barriers, and disseminate access to information on a global scale. In this thesis, to address the low-resource issue for the Turkish-English language pair, a large parallel corpus with 1.2 million parallel sentences was created using web scraping methods and sentence alignment algorithms. This corpus provides a significant foundation for the training and accuracy of translation systems between Turkish and English. Additionally, the creation of this corpus proposes an important path for other low-resource languages. Pre-trained language models are actively used in current natural language processing applications. Therefore, additional studies have been conducted to incorporate them into neural machine translation tasks. The first of these studies is to test the success of pre-trained language models created with different strategies in Turkish language understanding tasks. Comparisons made with different architectures showed that the BERT language model achieved successful results for Turkish. In the second study on language models, experiments were conducted on adapting models pre-trained in multiple languages to translation systems. The translation system created with parameter-efficient transfer learning achieved successful results in terms of computational cost and translation quality. Finally, to enhance the translation system's naturalness, fluency, and grammatical accuracy, a translation system was developed. This system used an encoder-decoder architecture with a self-attention mechanism for Turkish-English translations. The pretrained language model was used to increase fluency in translations. A new shallow fusion method was proposed for this translation system. The proposed method was developed with the parallel corpus created in the first study and the language models used in the subsequent studies.

Açıklama

Fen Bilimleri Enstitüsü, Bilgisayar Mühendisliği Ana Bilim Dalı

Anahtar Kelimeler

Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control

Bağlantı

https://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=usXiZIM9Lp0wk-YzRoaT-1Ue86I2X-Du8Op6XZ0afu-r5rHBcF2nuDa5wrwQSJP0
https://hdl.handle.net/11616/106044

Koleksiyon

Fen Bilimleri Enstitüsü Tez Koleksiyonu

Detaylı Öğe Kaydı

Türkçe-İngilizce sinirsel makine çeviri sistemi

Tarih

Yazarlar

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Yayıncı

Erişim Hakkı

Özet

Açıklama

Anahtar Kelimeler

Kaynak

WoS Q Değeri

Scopus Q Değeri

Cilt

Sayı

Künye

Bağlantı

Koleksiyon