Türkçe-İngilizce sinirsel makine çeviri sistemi
Küçük Resim Yok
Tarih
2024
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
İnönü Üniversitesi
Erişim Hakkı
info:eu-repo/semantics/openAccess
Özet
Düşük kaynaklı dil çiftlerinde çeviri sistemlerinin geliştirilmesi, dil veri setlerinin yetersizliği nedeniyle önemli zorluklar içerir. Bu tür dillerde yeterli miktarda ve çeşitlilikte paralel külliyatın bulunmaması, modellerin eğitimi ve doğruluğu üzerinde olumsuz etkiler yaratır. Özellikle, Türkçe-İngilizce gibi dil çiftlerinde, morfolojik zenginlik ve dil bilgisel yapı farklılıkları, çeviri sistemlerinin hassasiyetini artıran faktörlerdir. Çeviri sistemlerinin bu zorlukların üstesinden gelebilmesi için ileri seviye makine öğrenimi tekniklerine ve veri artırma yöntemlerine ihtiyaç vardır. Bununla birlikte, düşük kaynaklı diller için transfer öğrenimi ve sıfırdan öğrenme gibi yöntemler de giderek önem kazanmaktadır. Bu alandaki ilerlemeler, çeviri kalitesini artırarak dil bariyerlerini aşmayı ve bilgiye erişimi küresel ölçekte yaygınlaştırmayı hedeflemektedir. Bu tez çalışmasında, Türkçe-İngilizce dil çiftinde düşük kaynak sorununu ortadan kaldırabilmek için ilk olarak web kazıma yöntemleri ve cümle hizalama algoritmalarıyla 1.2 milyon paralel cümleye sahip büyük bir paralel külliyat oluşturulmuştur. Bu külliyat, Türkçe ve İngilizce arasındaki çeviri sistemlerinin eğitimi ve doğruluğu açısından önemli bir temel sağlamaktadır. Ayrıca külliyatın oluşturulması diğer düşük kaynaklı diller için de önemli bir yol önermektedir. Ön eğitimli dil modelleri güncel doğal dil işleme uygulamalarında aktif olarak kullanılmaktadır. Bu sebeple sinirsel makine çeviri görevlerine dahil edilmesi için ek çalışmalar yapılmıştır. Bu çalışmalardan ilki Türkçe dil anlama görevlerinde farklı stratejilerle oluşturulmuş ön eğitimli dil modellerinin başarısının test edilmesidir. Oluşturulan farklı mimarilerle yapılan karşılaştırmalar sonucunda Bert dil modelinin Türkçe için başarılı sonuçlar elde ettiği görülmüştür. Dil modelleri üzerine yapılan ikinci çalışma da ise çok dilli ön eğitimden geçirilmiş modellerin çeviri sistemlerine uyarlanması üzerine deneyler yapılmıştır. Transfer öğrenme için parametre verimli olarak oluşturulan çeviri sistemi hesaplama maliyeti ve çeviri kalitesi açısından başarılı sonuçlar elde etmiştir. Son olarak çeviri sisteminin daha doğal, akıcı ve dil bilgisel doğruluğu artırabilmek için çeviri sistemi oluşturulmuştur. Bu sistem de öz dikkat mimarisine sahip kodlayıcı kod çözücü mimarisi Türkçe-İngilizce çeviriler yapmak için kullanılmıştır. Ön eğitimli dil modeli ise çevirilerde akıcılığı artırmak için kullanılmıştır. Bu çeviri sistemi için yeni bir sığ füzyon yöntemi önerilmiştir. Önerilen yöntemde ilk çalışma da oluşturulan paralel külliyat ve sonraki çalışmalarda kullanılan dil modelleri ile geliştirilmiştir.
Developing translation systems for low-resource language pairs presents significant challenges due to the lack of adequate language datasets. The absence of a sufficient amount and variety of parallel corpora in such languages negatively impacts the training and accuracy of the models. Especially for language pairs like Turkish-English, morphological richness and differences in grammatical structures are factors that increase the sensitivity of translation systems. Advanced machine learning techniques and data augmentation methods are needed for translation systems to overcome these challenges. Moreover, methods such as transfer learning and zero-shot learning for low-resource languages are gaining importance. Advances in this field aim to improve translation quality, overcome language barriers, and disseminate access to information on a global scale. In this thesis, to address the low-resource issue for the Turkish-English language pair, a large parallel corpus with 1.2 million parallel sentences was created using web scraping methods and sentence alignment algorithms. This corpus provides a significant foundation for the training and accuracy of translation systems between Turkish and English. Additionally, the creation of this corpus proposes an important path for other low-resource languages. Pre-trained language models are actively used in current natural language processing applications. Therefore, additional studies have been conducted to incorporate them into neural machine translation tasks. The first of these studies is to test the success of pre-trained language models created with different strategies in Turkish language understanding tasks. Comparisons made with different architectures showed that the BERT language model achieved successful results for Turkish. In the second study on language models, experiments were conducted on adapting models pre-trained in multiple languages to translation systems. The translation system created with parameter-efficient transfer learning achieved successful results in terms of computational cost and translation quality. Finally, to enhance the translation system's naturalness, fluency, and grammatical accuracy, a translation system was developed. This system used an encoder-decoder architecture with a self-attention mechanism for Turkish-English translations. The pretrained language model was used to increase fluency in translations. A new shallow fusion method was proposed for this translation system. The proposed method was developed with the parallel corpus created in the first study and the language models used in the subsequent studies.
Developing translation systems for low-resource language pairs presents significant challenges due to the lack of adequate language datasets. The absence of a sufficient amount and variety of parallel corpora in such languages negatively impacts the training and accuracy of the models. Especially for language pairs like Turkish-English, morphological richness and differences in grammatical structures are factors that increase the sensitivity of translation systems. Advanced machine learning techniques and data augmentation methods are needed for translation systems to overcome these challenges. Moreover, methods such as transfer learning and zero-shot learning for low-resource languages are gaining importance. Advances in this field aim to improve translation quality, overcome language barriers, and disseminate access to information on a global scale. In this thesis, to address the low-resource issue for the Turkish-English language pair, a large parallel corpus with 1.2 million parallel sentences was created using web scraping methods and sentence alignment algorithms. This corpus provides a significant foundation for the training and accuracy of translation systems between Turkish and English. Additionally, the creation of this corpus proposes an important path for other low-resource languages. Pre-trained language models are actively used in current natural language processing applications. Therefore, additional studies have been conducted to incorporate them into neural machine translation tasks. The first of these studies is to test the success of pre-trained language models created with different strategies in Turkish language understanding tasks. Comparisons made with different architectures showed that the BERT language model achieved successful results for Turkish. In the second study on language models, experiments were conducted on adapting models pre-trained in multiple languages to translation systems. The translation system created with parameter-efficient transfer learning achieved successful results in terms of computational cost and translation quality. Finally, to enhance the translation system's naturalness, fluency, and grammatical accuracy, a translation system was developed. This system used an encoder-decoder architecture with a self-attention mechanism for Turkish-English translations. The pretrained language model was used to increase fluency in translations. A new shallow fusion method was proposed for this translation system. The proposed method was developed with the parallel corpus created in the first study and the language models used in the subsequent studies.
Açıklama
Fen Bilimleri Enstitüsü, Bilgisayar Mühendisliği Ana Bilim Dalı
Anahtar Kelimeler
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control