Mel frekansı kesptral katsayılarının bulunması, doğrusal öngörülü kodlama yöntemleri ve yapay sinir ağları kullanarak Türkçe konuşma tanıma ve yöntemlerin karşılaştırılması

Küçük Resim Yok

Tarih

2025

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Yayıncı

İnönü Üniversitesi

Erişim Hakkı

info:eu-repo/semantics/openAccess

Özet

Bu tezde MATLAB programı kullanılarak konuşmacı bağımlı, yalıtılmış kelimeler otomatik konuşma tanıma sistemleri geliştirilmiştir. Konuşma tanıma sistemleri öznitelik çıkarma ve sınıflandırma ana bölümlerinden oluşur. Bu çalışmada öznitelik çıkarma yöntemlerinden Mel Frekansı Kepstral Katsayıları ile Doğrusal Öngörülü Kodlama teknikleri ve sınıflandırma tekniklerinden ise Dinamik Zaman Bükmesi ile Yapay Sinir Ağları kullanılmıştır. Dinamik Zaman Bükmesi ve Yapay Sinir Ağı kullanan sınıflandırma ve konuşma tanıma yöntemlerinde öznitelik katsayılarının bulunması için Mel Frekansı Kepstral Katsayıları ve Doğrusal Öngörülü Kodlama metot ve algoritmaları kullanılmıştır. Dolayısıyla 4 farklı konuşma tanıma sistemi geliştirilmiştir. Bu 4 yöntemin çıkış cevapları karşılaştırılmıştır. Öznitelik çıkarma yöntemlerinden Mel Frekansı Kepstral Katsayıları yönteminin Doğrusal Öngörülü Kodlama yöntemine göre daha iyi sonuçlar verdiği gözlemlenmiştir. Ayrıca Dinamik Zaman Bükmesi yönteminin de Yapay Sinir Ağlarına oranla hem Kelime Tanıma Oranı açısından hem de kelime hazinesi açısından daha iyi sonuçlar ürettiği gözlemlenmiştir.
In this thesis, speaker dependent, isolated words automatic speech recognition systems are developed using MATLAB program. Speech recognition systems consist of feature extraction and classification main parts. In this study, Mel Frequency Cepstral Coefficients and Linear Predictive Coding techniques are used as feature extraction methods and Dynamic Time Warping and Artificial Neural Networks are used as classification techniques. Mel Frequency Cepstral Coefficients and Linear Predictive Coding methods and algorithms are used to find feature coefficients in classification and speech recognition methods using Dynamic Time Warping and Artificial Neural Network. Therefore, 4 different speech recognition systems are developed. The output responses of these 4 methods are compared. It is observed that Mel Frequency Cepstral Coefficients method gives better results than Linear Predictive Coding method among feature extraction methods. It is also observed that Dynamic Time Warping method produces better results both in terms of Word Recognition Rate and vocabulary compared to Artificial Neural Networks.

Açıklama

Anahtar Kelimeler

Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering

Kaynak

WoS Q Değeri

Scopus Q Değeri

Cilt

Sayı

Künye