KAJIAN KOMPUTASIONAL LINGUISTIK TERHADAP BAHASA MINORITAS INDONESIA: TANTANGAN DATA DAN METODOLOGI

Authors

  • Munawwir Hadiwijaya Universitas Insan Budi Utomo

Keywords:

Komputasional Linguistik, Bahasa Minoritas, Low-Resource NLP, Tantangan Data, Morfologi Indonesia.

Abstract

Indonesia merupakan salah satu negara dengan diversitas linguistik tertinggi di dunia, memiliki lebih dari 700 bahasa daerah. Namun, dalam lanskap komputasional linguistik global, sebagian besar bahasa ini dikategorikan sebagai bahasa dengan sumber daya rendah (low-resource languages), yang menghadapi risiko "kepunahan digital". Penelitian ini bertujuan untuk menguraikan dan menganalisis secara kritis tantangan utama dalam pengembangan teknologi (NLP) untuk bahasa minoritas di Indonesia. Melalui kajian literatur sistematis terhadap perkembangan penelitian NLP terkini, studi ini mengidentifikasi dua hambatan fundamental: (1) tantangan data, mencakup kelangkaan korpus terdigitalisasi dan tingginya fenomena campur kode (code-switching); serta (2) tantangan metodologi, di mana model Deep Learning global gagal menangkap kompleksitas morfologi aglutinatif bahasa Austronesia. Artikel ini menyimpulkan bahwa strategi augmentasi data konvensional tidak lagi memadai dan merekomendasikan pendekatan cross-lingual transfer learning yang memanfaatkan kemerumpunan bahasa, serta pentingnya pelibatan komunitas penutur asli (human-in-the-loop) dalam validasi data untuk menjembatani kesenjangan teknologi ini.

Downloads

Published

2026-01-18

How to Cite

Hadiwijaya, M. (2026). KAJIAN KOMPUTASIONAL LINGUISTIK TERHADAP BAHASA MINORITAS INDONESIA: TANTANGAN DATA DAN METODOLOGI. Kultura: Jurnal Ilmu Hukum, Sosial, Dan Humaniora, 4(1), 43–51. Retrieved from https://jurnal.kolibi.id/index.php/kultura/article/view/218