Türkçe için karşılaştırmalı metin sınıflandırma analizi

dc.authorid0000-0002-5868-5407en_US
dc.authorid0000-0002-7764-2891en_US
dc.contributor.authorYıldız, Tuğba
dc.contributor.authorYıldırım, Savaş
dc.date.accessioned2021-12-28T15:38:35Z
dc.date.available2021-12-28T15:38:35Z
dc.date.issued2018
dc.description.abstractÖZET: Metin Sınıflandırma Doğal Dil İşleme (DDİ) alanında önemli bir yere sahiptir. Son zamanlarda metinsel verilerin artması ve otomatik etiketlenmesi gerekliliği, metin sınıflandırma probleminin önemini artırmıştır. Geleneksel yaklaşımlardan öne çıkan kelime torbası yöntemi yıllardır metin sınıflandırmasında başarılı olmaktadır. Son zamanlarda sinir ağları dil modelleri DDİ problemlerine başarılı bir şekilde uygulanmış ve bazı alanlarda büyük başarı kaydetmişlerdir. Yapay Sinir Ağları (YSA) temelli mimarilerin en önemli avantajı daha etkili kelime ve metin gösterilimlerin oluşturmasıdır. Bu gösterilimler, geleneksel yöntemlere göre daha az boyutlu ve daha etkili bulunmuştur. Özellikle anlambilimsel ve sözdizimsel analizlerde başarılı uygulamalar yapılmıştır. Öte yandan daha uzun vektörlerle gösterilim kullanan geleneksel kelime torbası yöntemleri, metin gösterilimleri anlamında hala gücünü korumaktadır. Ancak Türkçe için bu iki yaklaşımın herhangi bir karşılaştırılması yapılmamıştır. Bu çalışmada, geleneksel kelime torbası yaklaşımı ile sinir ağı temelli yeni gösterilim yaklaşımları metin sınıflandırması açısından karşılaştırılmıştır. Bu çalışmalarda gördük ki etkili özellik seçimleri geleneksel yöntemlerinin hala yeni kuşak kelime gömme (word embeddings) yaklaşımı ile yarışacak düzeydedir. Son olarak deneylerimizi bu iki yaklaşım açısından çeşitlendirerek raporladık ve Türkçe için başarılı metin sınıflandırma mimarisini bu raporda ayrıntılı tartıştık.en_US
dc.description.abstractABSTRACT: Text categorization plays important role in the field of Natural Language Processing. Recently, the rapid growth in the amount of textual data and requirement of automatic annotation makes the problem of text categorization more important. As a prominent one of the traditional methods, the bag-of-words approach has been successfully applied to text categorization problem for years. Recently, Neural Network Language Models (NNLM) have achieved successful results for various problems of Natural Language Processing (NLP). The most important advantage of the NNLM is to provide effective word and document representations. Those representations are lower dimensional and are found to be more effective than traditional methods. They have been exploited successfully for semantic and syntactic analysis. On the other hand, the traditional bag-of-words approaches that use one-hot long vector representation are still considered powerful in terms of their accuracy in document classification. However, comparing these approaches for Turkish language has not been attempted before. In this study, we compared them within a variety of analysis. We observed that the traditional bagof-word representation utilizing an effective feature selection and a machine learning algorithm aligned with it have comparable performance with new generation vector based methods, namely word embeddings. In this study, we have conducted various experiments comparing these approaches and designated an effective text categorization architecture for Turkish Languageen_US
dc.fullTextLevelFull Texten_US
dc.identifier.doi10.5505/pajes.2018.15931en_US
dc.identifier.issn2147-5881
dc.identifier.trdizinid306827en_US
dc.identifier.urihttps://hdl.handle.net/11411/4281
dc.identifier.urihttps://doi.org/10.5505/pajes.2018.15931
dc.identifier.urihttps://search.trdizin.gov.tr/yayin/detay/306827en_US
dc.identifier.wosWOS:000446742400012en_US
dc.identifier.wosqualityN/Aen_US
dc.indekslendigikaynakWeb of Scienceen_US
dc.indekslendigikaynakTR-Dizinen_US
dc.issue5en_US
dc.language.isotren_US
dc.nationalNationalen_US
dc.numberofauthors2en_US
dc.pages879-886en_US
dc.publisherPamukkale Üniversitesi Mühendislik Bilimleri Dergisien_US
dc.relation.ispartofPamukkale Üniversitesi Mühendislik Bilimleri Dergisien_US
dc.relation.publicationcategoryMakale - Ulusal Hakemli Dergi - Kurum Öğretim Elemanıen_US
dc.rightsinfo:eu-repo/semantics/openAccessen_US
dc.snmz20240718_Mükerrer
dc.subjectMetin sınıflandırmaen_US
dc.subjectMakine öğrenmesien_US
dc.subjectYapay sinir ağlarıen_US
dc.subjectText classificationen_US
dc.subjectMachine learningen_US
dc.subjectArtificial neural networken_US
dc.titleTürkçe için karşılaştırmalı metin sınıflandırma analizien_US
dc.title.alternativeA comparative analysis of text classification for Turkish languageen_US
dc.typeArticleen_US
dc.volume24en_US

Dosyalar

Orijinal paket
Listeleniyor 1 - 1 / 1
Yükleniyor...
Küçük Resim
İsim:
2018YıldırımYıldız.pdf
Boyut:
596.83 KB
Biçim:
Adobe Portable Document Format
Açıklama:
Lisans paketi
Listeleniyor 1 - 1 / 1
Küçük Resim Yok
İsim:
license.txt
Boyut:
1.71 KB
Biçim:
Item-specific license agreed upon to submission
Açıklama: