Overview Penelitian
Penelitian ini mengklasifikasikan sentimen ulasan wisatawan terhadap enam Pura Sad Kahyangan di Bali menggunakan model IndoBERT-Base. Yang membuat penelitian ini unik adalah pendekatan komparatif antara dua strategi pelabelan otomatis, divalidasi melalui 500 ulasan berlabel manual sebagai gold standard.
Enam Tahap Penelitian
Mengapa Ada Human Test?
"Jika label ground truth hanya berasal dari aturan leksikon sederhana, maka IndoBERT sebenarnya hanya 'meniru' pola leksikon tersebut, bukan mempelajari konteks laten ulasan secara murni."
๐ญ Analogi: Ujian Sekolah
Guru mengajar murid dari buku A, lalu ujian akhirnya juga pakai soal dari buku A yang sama. Murid dapat nilai 95 โ tapi sebenarnya cuma hafal buku, bukan paham materi.
Murid diajar dari buku A, lalu ujiannya pakai soal baru dari guru senior. Kalau nilai tetap tinggi โ itu baru bukti murid benar-benar paham.
๐ Flow Solusi Penelitian
8.621 ulasan Indonesia bersih
โ
โโโ 500 ulasan โโโ LABEL MANUAL (Human Test Set)
โ โ
โ GOLD STANDARD untuk evaluasi
โ โ
โ โ digunakan untuk uji KEDUA model
โ โ
โโโ 8.121 ulasan โโโ Label otomatis (2 metode)
โ
โโโโโโโโโโโโโโดโโโโโโโโโโโโโ
โ โ
MODEL A: IndoBERT MODEL B: Lexicon
Labeler (66.73%) Labeler (50.30%)
Intinya: 500 ulasan berlabel manual tidak dipakai untuk training, hanya dipakai sebagai juri eksternal yang menilai kedua model secara adil. Sama seperti chef profesional menilai dua robot masak yang sama-sama belajar dari buku resep berbeda.
Apa Itu IndoBERT?
IndoBERT adalah model Transformer yang dilatih khusus untuk bahasa Indonesia menggunakan corpus berskala besar (200+ juta kata). Model ini memahami konteks kata secara dua arah (bidirectional) โ kanan dan kiri sekaligus.
๐ง Dua Fase Kehidupan IndoBERT
Model belajar bahasa Indonesia secara mandiri (self-supervised) โ menebak kata yang ditutupi dalam jutaan kalimat.
Model diajari tugas spesifik (klasifikasi sentimen) dengan dataset berlabel. Inilah tahap yang dilakukan Krisna.
Label: Positif
โ๏ธ Konfigurasi Fine-Tuning
| Parameter | Nilai | Justifikasi |
|---|---|---|
| num_train_epochs | 3 | Konvergensi optimal tanpa overfitting |
| batch_size | 16 | Optimal untuk GPU T4 (16GB VRAM) |
| learning_rate | 2e-5 | Standar fine-tuning BERT |
| warmup_steps | 100 | Stabilisasi gradien awal |
| weight_decay | 0.01 | Regularisasi L2 |
| max_length | 128 | Mencakup mayoritas panjang ulasan |
Human-Validated Test Set
500 ulasan dipilih dengan teknik stratified sampling dan dilabeli manual mengikuti pedoman annotation guideline. Subset ini menjadi gold standard eksternal โ terpisah penuh dari data training.
๐ Annotation Guideline
Ekspresi kekecewaan, keluhan, pengalaman buruk, atau kritik terhadap destinasi.
Informatif tanpa muatan emosional kuat, atau sentimen campuran yang seimbang.
Ekspresi kepuasan, kekaguman, rekomendasi, atau pengalaman menyenangkan.
๐ Distribusi Label Manual
Mengapa 500? Volume ini adalah sweet spot antara representativitas statistik dan kelayakan beban anotasi manual. Dataset NLP standar seperti SemEval umumnya menggunakan test set berukuran 500-2.000 sampel.
Apa Itu Cohen's Kappa?
Cohen's Kappa (ฮบ) mengukur tingkat kesepakatan antara dua penilai dengan memperhitungkan faktor kebetulan. Lebih jujur dibanding akurasi biasa, terutama pada dataset tidak seimbang.
๐ Skala Interpretasi (Landis & Koch, 1977)
Mengapa pakai Kappa, bukan Akurasi saja? Karena akurasi bisa menipu pada dataset tidak seimbang. Contoh: jika 90% data Positif, model yang asal tebak "Positif" untuk semua data akan dapat akurasi 90% โ tapi Kappa-nya = 0 (artinya tidak lebih baik dari tebak-tebakan).
Hasil Eksperimen Komparatif
Dua eksperimen berjalan paralel dengan konfigurasi fine-tuning identik, dievaluasi pada test set yang sama.
๐ฏ Tiga Temuan Utama
1. Model A unggul +16.43% dari Model B pada Human Test Set โ IndoBERT Labeler memberikan label berkualitas lebih tinggi dari Lexicon.
2. Bukti empiris circular validation โ Model B dapat 99.26% di Internal Test tapi anjlok ke 50.30% di Human Test. Gap 48.96% membuktikan model hanya hafal pola Lexicon.
3. Kontribusi metodologis baru โ Penelitian ini memberikan Human-Validated Test Set Protocol sebagai standar evaluasi yang lebih robust untuk NLP berbahasa Indonesia.
Antisipasi Pertanyaan Dosen Penguji
Berikut pertanyaan-pertanyaan tajam yang kemungkinan muncul saat sidang, beserta strategi jawaban yang sudah disiapkan.
Q1
Mengapa pakai dua metode pelabelan? Kenapa tidak Lexicon saja seperti rancangan awal?
Pertanyaan kemungkinan 90% akan muncul
โผ
Jawab: Metode awal saya memang menggunakan Lexicon-Based untuk pelabelan, sesuai dengan judul skripsi dan metodologi BAB III. Namun setelah menyadari potensi bias circular validation, saya menambahkan satu eksperimen komparatif menggunakan IndoBERT pre-trained sebagai labeler alternatif.
Hasilnya justru membuktikan secara empiris bahwa pendekatan Lexicon-Based mengalami gap circular validation 48.96%, sementara pendekatan IndoBERT labeler hanya 22.11%. Temuan ini memperkuat kontribusi penelitian, dan metode Lexicon asli tetap dipertahankan sebagai pembanding (baseline).
Q2
Akurasi 66% itu kan rendah ya? Apakah penelitiannya gagal?
Jebakan klasik โ fokus ke angka rendah
โผ
Jawab: Tidak gagal Pak/Bu โ justru ini temuan utama penelitian. Angka 66.73% itu adalah hasil evaluasi terhadap penilaian manusia yang sesungguhnya, bukan label otomatis.
Untuk konteks, model dengan label Lexicon hanya mencapai 50.30% pada Human Test Set โ artinya Model A saya unggul 16.43% darinya. Yang berubah adalah klaim penelitian โ bukan lagi klaim akurasi tinggi (94% yang dulu), tapi identifikasi label bias secara empiris dan rekomendasi metodologis untuk penelitian selanjutnya.
Q3
Rating Google Maps kan sudah ada diagramnya. Apa gunanya penelitian ini?
Pertanyaan tajam โ uji pemahaman novelty
โผ
Jawab: Betul Pak/Bu, dan itu salah satu temuan menarik โ rating Google Maps ternyata sangat konsisten dengan penilaian manusia, mencapai 73.15%. Namun ada dua hal yang tidak bisa dijawab rating bintang saja:
Pertama, rating bintang hanya tahu berapa yang puas, tidak tahu mengapa. Model NLP bisa menganalisis teks dan menemukan aspek spesifik yang dikeluhkan โ antrian, harga, kebersihan, atau pelayanan.
Kedua, ada ~27% ulasan yang rating bintangnya tidak konsisten dengan isi teksnya. Ada yang kasih bintang 5 tapi mengeluh penipuan, ada yang kasih bintang 1 tapi sebenarnya memuji. Model NLP menangkap nuansa itu โ rating bintang tidak bisa.
Analoginya: rumah sakit tidak cukup hanya tahu berapa pasien yang puas. Mereka perlu tahu apa yang membuat pasien tidak puas untuk memperbaiki layanan. Rating bintang memberi tahu angkanya, model NLP memberi tahu ceritanya.
Q4
Siapa yang melabeli 500 data manual itu? Apakah harus ahli bahasa?
Uji validitas metodologi
โผ
Jawab: Anotasi dilakukan oleh native speaker bahasa Indonesia yang memahami konteks budaya Bali, mengikuti annotation guideline yang telah ditetapkan. Untuk tugas klasifikasi sentimen ulasan wisatawan, native speaker terdidik dianggap valid secara akademik โ tidak wajib ahli bahasa.
Praktik ini konsisten dengan dataset NLP terkenal seperti SST Stanford (anotator Amazon Mechanical Turk) dan IndoNLU (anotator mahasiswa & relawan native speaker). Ahli bahasa lebih dibutuhkan untuk anotasi struktur sintaksis atau semantic role, bukan klasifikasi sentimen yang relatif straightforward.
Q5
Kalau labelnya pakai IndoBERT pre-trained lalu di-fine-tune ke IndoBERT lagi, bedanya apa?
Pertanyaan teknis tentang arsitektur
โผ
Jawab: Dua model yang berbeda dan independen Pak/Bu. Model A (w11wo/indonesian-roberta-base-sentiment-classifier) berperan sebagai pseudo-labeler yang sudah dilatih pada dataset sentimen dari domain berbeda (review aplikasi, Twitter). Model B (indobenchmark/indobert-base-p1) di-fine-tune khusus untuk domain pariwisata budaya Bali menggunakan label dari Model A.
Ini adalah transfer learning pipeline dengan domain adaptation. Model A memberikan label berkualitas lebih tinggi dari Lexicon (karena dilatih dari data berlabel manusia), dan Model B mengadaptasi pengetahuan tersebut ke domain spesifik Pura Sad Kahyangan.
Q6
Kenapa pilih 500 data manual? Kenapa tidak semua data dilabeli manusia?
Pertanyaan trade-off metodologis
โผ
Jawab: Pemilihan 500 ulasan didasarkan pada pertimbangan praktis: keseimbangan antara representativitas statistik dan kelayakan beban kerja anotasi manual dalam keterbatasan waktu penelitian skripsi. Mengilustrasikan jika 8.000+ data harus dilabeli manual, butuh tiga anotator selama dua minggu kerja penuh โ di luar lingkup penelitian ini.
Standar dataset NLP populer juga menggunakan ukuran serupa: SemEval (200-500 sampel test), IMDB review (1.000 sampel test set). Justru jumlah 500 ini sudah cukup memberikan validitas statistik dan menjadi salah satu saran penelitian โ diperluas menjadi 1.000-2.000 di penelitian selanjutnya.
Q7
Apa kontribusi utama penelitian ini dibanding penelitian sentimen yang sudah banyak ada?
Pertanyaan novelty โ wajib bisa jawab
โผ
Jawab: Ada tiga kontribusi utama Pak/Bu:
1. Kontribusi Metodologis โ Penerapan Human-Validated Test Set Protocol untuk mengungkap circular validation bias pada pseudo-labeling otomatis. Pendekatan ini bisa jadi standar baru untuk penelitian analisis sentimen berbahasa Indonesia.
2. Kontribusi Akademis โ Bukti empiris kuantitatif bahwa kualitas pseudo-labeler berdampak signifikan terhadap performa generalisasi model โ diukur dengan gap 26.85% antara IndoBERT labeler dan Lexicon.
3. Kontribusi Praktis โ Tersedianya model IndoBERT yang teradaptasi untuk domain pariwisata budaya Bali, beserta dataset 500 ulasan berlabel manual yang bisa jadi benchmark domain spesifik.
Q8
Apa keterbatasan penelitianmu? Kalau diulang, apa yang akan diperbaiki?
Uji refleksi akademik
โผ
Jawab: Ada empat keterbatasan utama Pak/Bu:
Pertama, volume Human Test Set hanya 500. Idealnya 1.000-2.000 untuk representativitas statistik yang lebih kuat.
Kedua, anotasi dilakukan oleh satu anotator. Idealnya 3 anotator independen dengan Inter-Annotator Agreement diukur via Cohen's Kappa antar-anotator.
Ketiga, model pre-trained yang digunakan sebagai labeler bisa jadi membawa bias dari domain training awalnya (review aplikasi). Domain pariwisata punya karakteristik bahasa berbeda.
Keempat, distribusi kelas tidak seimbang โ kelas Positif dominan. Bisa diperbaiki dengan teknik oversampling, weighted loss, atau focal loss.
Q9
Bagaimana memastikan label manual 500 itu konsisten dan tidak subjektif?
Validitas anotasi manual
โผ
Jawab: Konsistensi label dijaga melalui dua mekanisme. Pertama, annotation guideline yang ditetapkan di awal โ kriteria objektif untuk Positif/Netral/Negatif dengan contoh konkret untuk setiap kategori.
Kedua, label diuji silang terhadap rating bintang Google Maps sebagai cross-check internal. Hasilnya, 73.15% label manual konsisten dengan rating โ yang 27% sisanya adalah edge case (mis. bintang 5 tapi isi keluhan, atau bintang 1 tapi sebenarnya memuji) yang justru menjadi nilai tambah label manual dibanding rating semata.
Sebagai keterbatasan, saya akui Inter-Annotator Agreement formal belum diukur karena hanya satu anotator โ ini menjadi salah satu rekomendasi untuk penelitian selanjutnya.
Q10
Apa action item konkret yang bisa diambil pengelola Pura dari penelitian ini?
Uji manfaat praktis
โผ
Jawab: Berdasarkan analisis wordcloud dan distribusi sentimen, ada empat isu strategis yang teridentifikasi dari sentimen negatif:
1. Pengelolaan pedagang informal โ banyak keluhan praktik pemaksaan dan pemerasan turis. Solusi: zonasi pedagang resmi dan sistem ID khusus.
2. Transparansi harga tiket โ keluhan harga tidak proporsional. Solusi: papan harga resmi di pintu masuk dan sistem pembayaran cashless.
3. Pengelolaan satwa liar โ khususnya monyet di Uluwatu yang sering mencuri barang turis. Solusi: pelatihan staf dan peringatan visual.
4. Kebersihan kawasan โ perlu peningkatan jadwal pembersihan dan fasilitas sanitasi.
Selain itu, sentimen positif tinggi terhadap aspek spiritual dan arsitektur menjadi asset yang perlu dipertahankan, bukan dirusak oleh komersialisasi berlebihan.