PERBANDINGAN TEKNIK DATA TEXT AUGMENTATION SYNONYM REPLACEMENT DAN KOMBINASI SYNONYM REPLACEMENT–STEMMING UNTUK MENINGKATKAN KINERJA NMT BAHASA INDONESIA–DAYAK BANJUR

Authors

  • Natalia Artika Universitas Tanjungpura
  • Herry Sujaini Universitas Tanjungpura
  • Rina Septiriana Universitas Tanjungpura

Keywords:

Bahasa Dayak Banjur, Bahdanau Attention, BLEU, Data Augmentation, Neural Machine Translation, Stemming.

Abstract

Ketersediaan data paralel yang terbatas menjadi tantangan utama dalam pengembangan sistem Neural Machine Translation (NMT) untuk bahasa daerah, termasuk Bahasa Dayak Banjur. Penelitian ini berfokus pada evaluasi efektivitas dua teknik augmentasi data berbasis semantik, yaitu synonym replacement dan stemming + synonym replacement, dalam meningkatkan kinerja penerjemahan otomatis dari Bahasa Indonesia ke Bahasa Dayak Banjur. Dataset awal terdiri dari 5.000 pasangan kalimat paralel yang kemudian diperluas melalui masing-masing teknik augmentasi menjadi total 10.000 pasangan kalimat. Model NMT dikembangkan menggunakan arsitektur encoder-decoder berbasis Recurrent Neural Network (RNN) dengan mekanisme Bahdanau Attention. Pelatihan dilakukan secara terpisah pada masing-masing dataset dan dievaluasi menggunakan metrik BLEU. Hasil evaluasi menunjukkan bahwa synonym replacement memberikan dampak paling positif terhadap kualitas terjemahan, terbukti dari BLEU score tertinggi sebesar 48,19%. Skor ini lebih unggul dibanding stemming + synonym replacement yang hanya mencapai 46%, menunjukkan bahwa pelestarian bentuk kata asli lebih efektif dalam mempertahankan konteks kalimat. Adapun model tanpa augmentasi mencatatkan skor terendah, yaitu 42,17%. Temuan ini mengindikasikan bahwa augmentasi leksikal murni lebih efektif dibandingkan kombinasi dengan stemming, karena mampu memperkaya variasi kata tanpa mengorbankan keutuhan makna atau struktur kalimat. Sebaliknya, proses stemming dapat mengaburkan konteks dan mengurangi keterbacaan, sehingga berdampak pada penurunan akurasi terjemahan. Penelitian ini menegaskan pentingnya pemilihan teknik augmentasi yang tepat untuk mendorong generalisasi model NMT pada data sumber daya rendah.

Downloads

Published

2025-11-07

How to Cite

Artika, N., Sujaini , H., & Septiriana , R. (2025). PERBANDINGAN TEKNIK DATA TEXT AUGMENTATION SYNONYM REPLACEMENT DAN KOMBINASI SYNONYM REPLACEMENT–STEMMING UNTUK MENINGKATKAN KINERJA NMT BAHASA INDONESIA–DAYAK BANJUR. Scientica: Jurnal Ilmiah Sains Dan Teknologi, 3(7), 46–54. Retrieved from https://jurnal.kolibi.id/index.php/scientica/article/view/19