KAJIAN KOMPUTASIONAL LINGUISTIK TERHADAP BAHASA MINORITAS INDONESIA: TANTANGAN DATA DAN METODOLOGI
Keywords:
Komputasional Linguistik, Bahasa Minoritas, Low-Resource NLP, Tantangan Data, Morfologi Indonesia.Abstract
Indonesia merupakan salah satu negara dengan diversitas linguistik tertinggi di dunia, memiliki lebih dari 700 bahasa daerah. Namun, dalam lanskap komputasional linguistik global, sebagian besar bahasa ini dikategorikan sebagai bahasa dengan sumber daya rendah (low-resource languages), yang menghadapi risiko "kepunahan digital". Penelitian ini bertujuan untuk menguraikan dan menganalisis secara kritis tantangan utama dalam pengembangan teknologi (NLP) untuk bahasa minoritas di Indonesia. Melalui kajian literatur sistematis terhadap perkembangan penelitian NLP terkini, studi ini mengidentifikasi dua hambatan fundamental: (1) tantangan data, mencakup kelangkaan korpus terdigitalisasi dan tingginya fenomena campur kode (code-switching); serta (2) tantangan metodologi, di mana model Deep Learning global gagal menangkap kompleksitas morfologi aglutinatif bahasa Austronesia. Artikel ini menyimpulkan bahwa strategi augmentasi data konvensional tidak lagi memadai dan merekomendasikan pendekatan cross-lingual transfer learning yang memanfaatkan kemerumpunan bahasa, serta pentingnya pelibatan komunitas penutur asli (human-in-the-loop) dalam validasi data untuk menjembatani kesenjangan teknologi ini.
Downloads
Published
How to Cite
Issue
Section
License
Copyright (c) 2026 Munawwir Hadiwijaya

This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.




