Yazar "Aydoğan, Murat" seçeneğine göre listele
Listeleniyor 1 - 3 / 3
Sayfa Başına Sonuç
Sıralama seçenekleri
Öğe Büyük veride derin öğrenme algoritmaları kullanılarak metin analizinin gerçekleştirilmesi(İnönü Üniversitesi, 2019) Aydoğan, MuratBilişim dünyasında yüksek hızda yaşanan gelişmeler ve internet kullanımının çok yaygın hale gelmesi ile birlikte, dijital platformlarda üretilen verinin çeşitliliği ve miktarı artmıştır. Üretilen bu büyük verinin çoğunluğu metinlerden oluşan içeriklerdir. Ancak her geçen gün artan metin verilerini geleneksel yöntemlerle işlemek zor bir problem haline gelmiştir. Bu nedenle büyük veri teknolojileri ve özellikle büyük veriler üzerinde oldukça başarılı performans gösteren derin sinir ağları ve sinir ağı temelli kelime temsil yöntemleri geliştirilmiştir. Bu tez çalışmasında kelime temsil yöntemleri, büyük veri teknolojileri ile birlikte kullanılmış derin öğrenme mimarileri üzerinde detaylı analizler yapılmıştır. Yapılan çalışmalar incelendiğinde başta İngilizce olmak üzere birçok doğal dile özgü çalışmalar yapıldığı ancak Türkçe çalışmaların sayısının yeterli olmadığı görülmüştür. Bu nedenle çalışmanın hedef dili olarak Türkçe tercih edilmiş bununla birlikte tez çalışmasında üç uygulama geliştirilmiştir ve iki özgün yöntem önerilmiştir. İlk uygulamada çalışmaların yapılacağı ortamı belirlemek için büyük veri uygulaması yapılmıştır. İkinci uygulamada metin işleme öncesinde önişleme çalışmaları yapılmıştır. Bu kapsamda TF (Term Frequency) - IDF (Inverse Document Frequency) yöntemi ile ilk kez Türkçe için stopwords listesi oluşturulmuştur. Üçüncü uygulamada ise oldukça büyük Türkçe etiketsiz verilerden oluşan bir veri seti (Dataset-1) üretilmiştir. Bu veri seti üzerinde kelime temsil yöntemleri kullanılarak kelime vektörleri eğitilmiş ve farklı kelime temsil yöntemlerinin başarımları kıyaslanmıştır. Üçüncü uygulama için de yaklaşık 1,5 milyon veri ve 10 sınıftan oluşan ikinci bir Türkçe veri seti (Dataset-2) üretilmiştir. Bu veri seti üzerinde, kelime vektörleri, önceden eğitilmiş kelime vektörleri olarak transfer öğrenme yöntemi ile farklı derin öğrenme mimarileri üzerinde metin sınıflandırma problemi için kullanıldığı bir yöntem önerilmiştir. Önerilen bu yöntem ile hemen hemen tüm modeller üzerinde mevcut başarım değerleri %5-%7 arasında geliştirilmiştir. İkinci yöntem olarak sözlük yöntemi adı verilen yeni bir yöntem önerilmiştir. Türkçe için hali hazırda geliştirilmiş bir yazım denetleyicisi olmadığı için bu yöntem ile Dataset-2 üzerindeki yanlış yazılmış kelimeler tespit edilmiş ve bir derin öğrenme modeli olan LSTM (Long Short Term Memory) ile bu kelimelerin yerine doğru kelimeler tespit edilmeye çalışılmıştır. Uygulama sonucunda elde edilen sınıflandırma başarımı analiz edildiğinde yaklaşık 55.000 hatalı kelimenin doğru kelime ile değiştirildiği ve başarım değerinin %8.68 geliştirildiği görülmüştür. Bu tez çalışmasıyla birlikte Türkçe metin işleme çalışmalarına katkı sağlamak amacıyla iki adet büyük Türkçe veri seti üretilmiştir. Ayrıca bu veri setleri üzerinde şimdiye kadar eğitilmiş en büyük Türkçe kelime vektörleri üretilerek araştırmacıların kullanımına açık halde paylaşılmıştır.Öğe Kelime Temsil Yöntemleri ile Kelime Benzerliklerinin İncelenmesi(2019) Aydoğan, Murat; Karcı, AliÖz: Günümüzde büyük veri alanında meydana gelen gelişmelerle birlikte günlük işlenebilir durumda olan verimiktarı oldukça büyük boyutlara ulaşmıştır. Bu verilerin çok büyük bir kısmının metin (text) verilerindenoluşması, metin işleme alanında yapılan çalışmaları oldukça önemli ve popüler bir hale getirmiştir. Ancakbu alanda yapılan çalışmalar incelendiğinde başta İngilizce olmak üzere birçok dünya diline yönelikçeşitli çalışmalar yapılırken, Türkçeye özgü yapılan çalışmaların istenilen sayıda olmadığı görülmüştür.Bu nedenle bu çalışma için, python ortamı kütüphanelerinden biri olan Beautiful Soup kütüphanesikullanılarak Türkçe metinlerden oluşan büyük bir derlem oluşturulmuştur. Bu çalışmada, kelimelerivektör uzayında her bir kelimenin bir vektörle temsil edildiği yeni bir yaklaşım olan Word2Vec modelialgoritmalarından CBOW ve Skip-Gram algoritmaları ile Glove modeli kullanılmıştır. Oluşturulan derlemüzerinde Word2Vec yöntemi ile Türkçe kelimelerden oluşan ve bu kelimeler arasındaki anlamsal ilişkileritespit etmeye çalışan bir model geliştirilmiş ve diğer modeller ile başarımı ve eğitim sürelerikıyaslanmıştır. Ayrıca çalışmanın bir diğer katkısı ise modelin performansını artırmak için Türkçe içinetkisiz kelimeler listesi oluşturulmasıdır. Geliştirilen bu model ile özellikle Türkçe metin sınıflandırmaproblemlerinde daha yüksek bir sınıflandırma başarımının yakalanması hedeflenmektedir. Bu çalışmakapsamında oluşturulan model analiz edilip yakın anlamlı kelimeler incelendiğinde oldukça başarılıperformans gösterdiği tespit edilmiştir. Veriseti ve kelime vektörleri Türkçe çalışmalara katkı sağlamakiçin erişime açık olarak paylaşılacaktır.Öğe Spelling Correction with the Dictionary Method for the Turkish Language Using Word Embeddings(2020) Aydoğan, Murat; Karcı, AliAbstract: Today, a massive amount of data is being produced, which is referred to as “big data.” A significant part of big data is composed of text data, which has made text processing all the more important. However, when text processing studies are examined, it can be seen that while there are many world language-oriented studies, especially the English language, there has been an insufficient level of studies published specific to the Turkish language. Therefore, Turkish was chosen as the target language for the study. A Turkish corpus of approximately 10.5 billion words was created, consisting of unlabeled data containing no spelling errors. Word vectors were trained using the Word2Vec method on this corpus. Based on this corpus, a new method was proposed called the “dictionary method,” with a dictionary created covering almost all known Turkish words. Then, text classification was applied to a multi-class Turkish dataset. This dataset contains 10 classes and approximately 1.5 million samples. Vector values of the token words in this dataset were transferred from the dictionary by transfer learning. However, words not found in the created dictionary were considered as incorrect; then, using LSTM (Long Short-Term Memory), which is a deep neural network (DNN) architecture, the proposed method attempts to predict correct or similar words as replacement words. Following this process, it was seen that the accuracy rate improved by 8.68%. Turkish dataset that is created, corpus and dictionary will be shared with researchers in order to contribute to Turkish text processing studies.











