Record Detail
Advanced Search
Text
Pengaruh Distribusi Panjang Data Teks pada Klasifikasi: Sebuah Studi Awal
Pada klasifikasi teks ada permasalahan perbedaan domain teks (cross-domain) antara data yang digunakan untuk melatih model dengan data yang digunakan pada saat model diaplikasikan. Selain permasalahan perbedaan domain ada juga perbedaan bahasa (cross-lingual). Banyak penelitian sebelumnya telah mencari cara bagaimana model klasifikasi dapat diterapkan secara efektif dan efisien pada situasi cross-domain dan cross-lingual tersebut. Namun ada satu perbedaan yang kurang diberikan perhatian khusus karena dianggap tidak terlalu berpengaruh, yaitu perbedaan panjang teks (cross-length). Pada penelitian ini kami menginvestigasi lebih jauh kondisi cross-length dengan membuat sebuah dataset khusus dan diujikan dengan berbagai model klasifikasi yang biasa digunakan. Hasil penelitian menunjukkan bahwa perbedaan distribusi panjang teks antara data latih dengan data uji dapat mempengaruhi hasil klasifikasi. Cross-length transfer dari teks panjang ke pendek menunjukkan rata-rata penurunan F1-score dari semua model sebesar 14%, sementara transfer dari teks pendek ke panjang memberikan penurunan rata-rata sebesar 9%.
Availability
No copy data
Detail Information
Series Title |
-
|
---|---|
Call Number |
-
|
Publisher | JURNAL MEDIA INFORMATIKA BUDIDARMA : Indonesia., 2022 |
Collation |
005
|
Language |
Indonesia
|
ISBN/ISSN |
2614-5278
|
Classification |
NONE
|
Content Type |
-
|
Media Type |
-
|
---|---|
Carrier Type |
-
|
Edition |
-
|
Subject(s) | |
Specific Detail Info |
-
|
Statement of Responsibility |
-
|
Other Information
Accreditation |
-
|
---|
Other version/related
No other version available
File Attachment
Information
Web Online Public Access Catalog - Use the search options to find documents quickly