Büyük veri işlemede tam metin arama teknolojilerinin uygulanması ve karşılaştırılması
Yükleniyor...
Dosyalar
Tarih
2023
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
İnönü Üniversitesi
Erişim Hakkı
info:eu-repo/semantics/openAccess
Özet
Günümüzde verilerin boyutları ciddi bir hızla artarak devam etmektedir. Büyük veri setlerinde yapılan işlemler verinin boyutu arttıkça bazı zorluklara sebep olmaktadır. Örneğin, bir veri seti içerisinde arama yapmak temel işlemlerden biridir ve veri miktarı arttıkça çeşitli zorlukları açığa çıkarmaktadır. Bu tez çalışmasında, arama işlemlerindeki zorluklardan yola çıkılarak tam metin arama metodu üzerine araştırma yapılmaktadır. Tam metin arama, indekslenmiş veriler üzerinden arama işleminin gerçekleştirildiği bir yöntemdir. Bu yöntem, büyük bir veri setinde veriye daha hızlı erişim ve etkili arama gerçekleştirebilme noktasında avantaj sağlamaktadır. Bu çalışmada, tam metin aramada kullanılan popüler teknolojilerden Apache Solr ve Elasticsearch için indeksleme ve arama performansının bir karşılaştırılması yapılmıştır. Öncelikle, üç farklı veri seti ve üç farklı makine kullanılarak her teknoloji için indeksleme süreleri alınıp karşılaştırılmıştır. Daha sonra, indeksleme performansı en iyi olan makinede, 10 sorgu kullanılarak her iki teknoloji için arama süreleri incelenmiştir. Sonuçlar değerlendirildiğinde Apache Solr hem indekslemede hem de aramada daha iyi performans göstermiştir. Bu yüzden, bu çalışma için geliştirilen web uygulaması Apache Solr üzerine inşa edilmiştir. Uygulama kısmında, Web of Science platformunda yer alan Engineering, Computing & Technology koleksiyonundaki 1,655 derginin çeşitli bilgilerinin toplandığı özgün bir veri seti oluşturulmuş ve kullanılmıştır. Bu uygulama sayesinde, araştırmacılar çalışmalarını yayınlamak için amaçlarına uygun dergileri listeleyebilmektedir.
Today, the size of the data continues to increase at a serious pace. Operations performed on large datasets cause some difficulties as the size of the data increases. For example, searching within a dataset is one of the basic operations, and as the amount of data increases, it reveals various difficulties. In this thesis, a research is accomplished on the full-text search method based on the difficulties in the search processes. Full-text search is a method in which the search is performed on indexed data. This method provides an advantage in terms of faster access to data and effective search in a large dataset. In this study, a comparison of indexing and search performance was made for Apache Solr and Elasticsearch, which are popular full-text search technologies. First, indexing times for each technology were taken and compared using three different datasets and three different machines. Then, search times for both technologies were examined using 10 queries on the machine with the best indexing performance. Considering the results, Apache Solr performed better in both indexing and searching. Therefore, the web application developed for this study is built on Apache Solr. In the application part, a unique dataset was created and used, in which various information was collected from 1,655 journals in the Engineering, Computing & Technology collection on the Web of Science platform. Thanks to this application, researchers could list the journals suitable for their purpose to publish their work.
Today, the size of the data continues to increase at a serious pace. Operations performed on large datasets cause some difficulties as the size of the data increases. For example, searching within a dataset is one of the basic operations, and as the amount of data increases, it reveals various difficulties. In this thesis, a research is accomplished on the full-text search method based on the difficulties in the search processes. Full-text search is a method in which the search is performed on indexed data. This method provides an advantage in terms of faster access to data and effective search in a large dataset. In this study, a comparison of indexing and search performance was made for Apache Solr and Elasticsearch, which are popular full-text search technologies. First, indexing times for each technology were taken and compared using three different datasets and three different machines. Then, search times for both technologies were examined using 10 queries on the machine with the best indexing performance. Considering the results, Apache Solr performed better in both indexing and searching. Therefore, the web application developed for this study is built on Apache Solr. In the application part, a unique dataset was created and used, in which various information was collected from 1,655 journals in the Engineering, Computing & Technology collection on the Web of Science platform. Thanks to this application, researchers could list the journals suitable for their purpose to publish their work.
Açıklama
Anahtar Kelimeler
Kaynak
WoS Q Değeri
Scopus Q Değeri
Cilt
Sayı
Künye
Deniz, A. (2023). Büyük veri işlemede tam metin arama teknolojilerinin uygulanması ve karşılaştırılması. Yayınlanmış Yüksek Lisans Tezi. İnönü Üniversitesi, Malatya.