No image available for this title

Text

Pengaruh Distribusi Panjang Data Teks pada Klasifikasi: Sebuah Studi Awal



Pada klasifikasi teks ada permasalahan perbedaan domain teks (cross-domain) antara data yang digunakan untuk melatih model dengan data yang digunakan pada saat model diaplikasikan. Selain permasalahan perbedaan domain ada juga perbedaan bahasa (cross-lingual). Banyak penelitian sebelumnya telah mencari cara bagaimana model klasifikasi dapat diterapkan secara efektif dan efisien pada situasi cross-domain dan cross-lingual tersebut. Namun ada satu perbedaan yang kurang diberikan perhatian khusus karena dianggap tidak terlalu berpengaruh, yaitu perbedaan panjang teks (cross-length). Pada penelitian ini kami menginvestigasi lebih jauh kondisi cross-length dengan membuat sebuah dataset khusus dan diujikan dengan berbagai model klasifikasi yang biasa digunakan. Hasil penelitian menunjukkan bahwa perbedaan distribusi panjang teks antara data latih dengan data uji dapat mempengaruhi hasil klasifikasi. Cross-length transfer dari teks panjang ke pendek menunjukkan rata-rata penurunan F1-score dari semua model sebesar 14%, sementara transfer dari teks pendek ke panjang memberikan penurunan rata-rata sebesar 9%.


Availability

No copy data


Detail Information

Series Title
-
Call Number
-
Publisher JURNAL MEDIA INFORMATIKA BUDIDARMA : Indonesia.,
Collation
005
Language
Indonesia
ISBN/ISSN
2614-5278
Classification
NONE
Content Type
-
Media Type
-
Carrier Type
-
Edition
-
Subject(s)
Specific Detail Info
-
Statement of Responsibility

Other Information

Accreditation
-

Other version/related

No other version available


File Attachment



Information


Web Online Public Access Catalog - Use the search options to find documents quickly