Ringkasan Skripsi Krisna — Analisis Sentimen Pura Sad Kahyangan

Overview Penelitian

Penelitian ini mengklasifikasikan sentimen ulasan wisatawan terhadap enam Pura Sad Kahyangan di Bali menggunakan model IndoBERT-Base. Yang membuat penelitian ini unik adalah pendekatan komparatif antara dua strategi pelabelan otomatis, divalidasi melalui 500 ulasan berlabel manual sebagai gold standard.

Data Sumber

8.621

ulasan Google Maps berbahasa Indonesia

Pura

Besakih, Lempuyang, Goa Lawah, Uluwatu, Batukaru, Pusering Jagat

Kategori

Positif, Netral, Negatif

Enam Tahap Penelitian

Pengumpulan Data

Web scraping dengan Apify dari Google Maps

Preprocessing

Cleansing, case folding, tokenisasi, stopword, stemming

Pelabelan Komparatif

Lexicon-Based vs IndoBERT Pre-trained

Human-Validated Test Set

500 ulasan dilabeli manual sebagai gold standard

Fine-Tuning IndoBERT-Base

3 epoch, 2 eksperimen paralel (A & B)

Dual Evaluation

Internal Test + Human Test untuk validitas ganda

Mengapa Ada Human Test?

"Jika label ground truth hanya berasal dari aturan leksikon sederhana, maka IndoBERT sebenarnya hanya 'meniru' pola leksikon tersebut, bukan mempelajari konteks laten ulasan secara murni."

— Kritik Dosen Pembimbing

🎭 Analogi: Ujian Sekolah

📖

Skenario Salah (Circular)

Guru mengajar murid dari buku A, lalu ujian akhirnya juga pakai soal dari buku A yang sama. Murid dapat nilai 95 — tapi sebenarnya cuma hafal buku, bukan paham materi.

🎓

Skenario Benar (Valid)

Murid diajar dari buku A, lalu ujiannya pakai soal baru dari guru senior. Kalau nilai tetap tinggi — itu baru bukti murid benar-benar paham.

📊 Flow Solusi Penelitian

8.621 ulasan Indonesia bersih
        │
        ├── 500 ulasan ──→ LABEL MANUAL (Human Test Set)
        │                      ↓
        │                  GOLD STANDARD untuk evaluasi
        │                      ↑
        │                      │ digunakan untuk uji KEDUA model
        │                      │
        └── 8.121 ulasan ──→ Label otomatis (2 metode)
                                ↓
                  ┌────────────┴────────────┐
                  ↓                          ↓
          MODEL A: IndoBERT          MODEL B: Lexicon
          Labeler (66.73%)           Labeler (50.30%)

Intinya: 500 ulasan berlabel manual tidak dipakai untuk training, hanya dipakai sebagai juri eksternal yang menilai kedua model secara adil. Sama seperti chef profesional menilai dua robot masak yang sama-sama belajar dari buku resep berbeda.

Apa Itu IndoBERT?

IndoBERT adalah model Transformer yang dilatih khusus untuk bahasa Indonesia menggunakan corpus berskala besar (200+ juta kata). Model ini memahami konteks kata secara dua arah (bidirectional) — kanan dan kiri sekaligus.

🧠 Dua Fase Kehidupan IndoBERT

Fase 1

Pre-training

Model belajar bahasa Indonesia secara mandiri (self-supervised) — menebak kata yang ditutupi dalam jutaan kalimat.

"Pura ini sangat [MASK]" → tebak: "indah"

❌ Tidak butuh label

Fase 2

Fine-tuning

Model diajari tugas spesifik (klasifikasi sentimen) dengan dataset berlabel. Inilah tahap yang dilakukan Krisna.

Input: "Pura ini sangat indah"
Label: Positif

✅ Butuh label (kualitas label = kualitas model)

⚙️ Konfigurasi Fine-Tuning

Parameter	Nilai	Justifikasi
num_train_epochs	3	Konvergensi optimal tanpa overfitting
batch_size	16	Optimal untuk GPU T4 (16GB VRAM)
learning_rate	2e-5	Standar fine-tuning BERT
warmup_steps	100	Stabilisasi gradien awal
weight_decay	0.01	Regularisasi L2
max_length	128	Mencakup mayoritas panjang ulasan

Human-Validated Test Set

500 ulasan dipilih dengan teknik stratified sampling dan dilabeli manual mengikuti pedoman annotation guideline. Subset ini menjadi gold standard eksternal — terpisah penuh dari data training.

📋 Annotation Guideline

Label 0

Negatif

Ekspresi kekecewaan, keluhan, pengalaman buruk, atau kritik terhadap destinasi.

Label 1

Netral

Informatif tanpa muatan emosional kuat, atau sentimen campuran yang seimbang.

Label 2

Positif

Ekspresi kepuasan, kekaguman, rekomendasi, atau pengalaman menyenangkan.

📊 Distribusi Label Manual

Positif (230)46.0%

Netral (137)27.4%

Negatif (133)26.6%

Mengapa 500? Volume ini adalah sweet spot antara representativitas statistik dan kelayakan beban anotasi manual. Dataset NLP standar seperti SemEval umumnya menggunakan test set berukuran 500-2.000 sampel.

Apa Itu Cohen's Kappa?

Cohen's Kappa (κ) mengukur tingkat kesepakatan antara dua penilai dengan memperhitungkan faktor kebetulan. Lebih jujur dibanding akurasi biasa, terutama pada dataset tidak seimbang.

Formula

κ = (P_o − P_e) / (1 − P_e)

P_o = akurasi observasi · P_e = akurasi yang diharapkan secara kebetulan

📏 Skala Interpretasi (Landis & Koch, 1977)

κ > 0.80

Almost Perfect Agreement

🏆

0.61 – 0.80

Substantial Agreement

✅

0.41 – 0.60

Moderate Agreement — Model A Krisna (0.4419) ada di sini

📍

0.21 – 0.40

Fair Agreement — Model B Krisna (0.2438) ada di sini

📍

≤ 0.20

Slight/Poor Agreement

⚠️

Mengapa pakai Kappa, bukan Akurasi saja? Karena akurasi bisa menipu pada dataset tidak seimbang. Contoh: jika 90% data Positif, model yang asal tebak "Positif" untuk semua data akan dapat akurasi 90% — tapi Kappa-nya = 0 (artinya tidak lebih baik dari tebak-tebakan).

Hasil Eksperimen Komparatif

Dua eksperimen berjalan paralel dengan konfigurasi fine-tuning identik, dievaluasi pada test set yang sama.

Eksperimen A

IndoBERT Labeler

🏆

Internal Test88.84%

Human Test66.73%

F1-Score (Human)61.41%

Cohen's Kappa0.4419

Gap22.11%

Eksperimen B

Lexicon Labeler

⚠️

Internal Test99.26%

Human Test50.30%

F1-Score (Human)49.77%

Cohen's Kappa0.2438

Gap48.96%

🎯 Tiga Temuan Utama

1. Model A unggul +16.43% dari Model B pada Human Test Set — IndoBERT Labeler memberikan label berkualitas lebih tinggi dari Lexicon.

2. Bukti empiris circular validation — Model B dapat 99.26% di Internal Test tapi anjlok ke 50.30% di Human Test. Gap 48.96% membuktikan model hanya hafal pola Lexicon.

3. Kontribusi metodologis baru — Penelitian ini memberikan Human-Validated Test Set Protocol sebagai standar evaluasi yang lebih robust untuk NLP berbahasa Indonesia.

Antisipasi Pertanyaan Dosen Penguji

Berikut pertanyaan-pertanyaan tajam yang kemungkinan muncul saat sidang, beserta strategi jawaban yang sudah disiapkan.

Mengapa pakai dua metode pelabelan? Kenapa tidak Lexicon saja seperti rancangan awal?

Pertanyaan kemungkinan 90% akan muncul

▼

Jawab: Metode awal saya memang menggunakan Lexicon-Based untuk pelabelan, sesuai dengan judul skripsi dan metodologi BAB III. Namun setelah menyadari potensi bias circular validation, saya menambahkan satu eksperimen komparatif menggunakan IndoBERT pre-trained sebagai labeler alternatif.

Hasilnya justru membuktikan secara empiris bahwa pendekatan Lexicon-Based mengalami gap circular validation 48.96%, sementara pendekatan IndoBERT labeler hanya 22.11%. Temuan ini memperkuat kontribusi penelitian, dan metode Lexicon asli tetap dipertahankan sebagai pembanding (baseline).

Akurasi 66% itu kan rendah ya? Apakah penelitiannya gagal?

Jebakan klasik — fokus ke angka rendah

▼

Jawab: Tidak gagal Pak/Bu — justru ini temuan utama penelitian. Angka 66.73% itu adalah hasil evaluasi terhadap penilaian manusia yang sesungguhnya, bukan label otomatis.

Untuk konteks, model dengan label Lexicon hanya mencapai 50.30% pada Human Test Set — artinya Model A saya unggul 16.43% darinya. Yang berubah adalah klaim penelitian — bukan lagi klaim akurasi tinggi (94% yang dulu), tapi identifikasi label bias secara empiris dan rekomendasi metodologis untuk penelitian selanjutnya.

Rating Google Maps kan sudah ada diagramnya. Apa gunanya penelitian ini?

Pertanyaan tajam — uji pemahaman novelty

▼

Jawab: Betul Pak/Bu, dan itu salah satu temuan menarik — rating Google Maps ternyata sangat konsisten dengan penilaian manusia, mencapai 73.15%. Namun ada dua hal yang tidak bisa dijawab rating bintang saja:

Pertama, rating bintang hanya tahu berapa yang puas, tidak tahu mengapa. Model NLP bisa menganalisis teks dan menemukan aspek spesifik yang dikeluhkan — antrian, harga, kebersihan, atau pelayanan.

Kedua, ada ~27% ulasan yang rating bintangnya tidak konsisten dengan isi teksnya. Ada yang kasih bintang 5 tapi mengeluh penipuan, ada yang kasih bintang 1 tapi sebenarnya memuji. Model NLP menangkap nuansa itu — rating bintang tidak bisa.

Analoginya: rumah sakit tidak cukup hanya tahu berapa pasien yang puas. Mereka perlu tahu apa yang membuat pasien tidak puas untuk memperbaiki layanan. Rating bintang memberi tahu angkanya, model NLP memberi tahu ceritanya.

Siapa yang melabeli 500 data manual itu? Apakah harus ahli bahasa?

Uji validitas metodologi

▼

Jawab: Anotasi dilakukan oleh native speaker bahasa Indonesia yang memahami konteks budaya Bali, mengikuti annotation guideline yang telah ditetapkan. Untuk tugas klasifikasi sentimen ulasan wisatawan, native speaker terdidik dianggap valid secara akademik — tidak wajib ahli bahasa.

Praktik ini konsisten dengan dataset NLP terkenal seperti SST Stanford (anotator Amazon Mechanical Turk) dan IndoNLU (anotator mahasiswa & relawan native speaker). Ahli bahasa lebih dibutuhkan untuk anotasi struktur sintaksis atau semantic role, bukan klasifikasi sentimen yang relatif straightforward.

Kalau labelnya pakai IndoBERT pre-trained lalu di-fine-tune ke IndoBERT lagi, bedanya apa?

Pertanyaan teknis tentang arsitektur

▼

Jawab: Dua model yang berbeda dan independen Pak/Bu. Model A (w11wo/indonesian-roberta-base-sentiment-classifier) berperan sebagai pseudo-labeler yang sudah dilatih pada dataset sentimen dari domain berbeda (review aplikasi, Twitter). Model B (indobenchmark/indobert-base-p1) di-fine-tune khusus untuk domain pariwisata budaya Bali menggunakan label dari Model A.

Ini adalah transfer learning pipeline dengan domain adaptation. Model A memberikan label berkualitas lebih tinggi dari Lexicon (karena dilatih dari data berlabel manusia), dan Model B mengadaptasi pengetahuan tersebut ke domain spesifik Pura Sad Kahyangan.

Kenapa pilih 500 data manual? Kenapa tidak semua data dilabeli manusia?

Pertanyaan trade-off metodologis

▼

Jawab: Pemilihan 500 ulasan didasarkan pada pertimbangan praktis: keseimbangan antara representativitas statistik dan kelayakan beban kerja anotasi manual dalam keterbatasan waktu penelitian skripsi. Mengilustrasikan jika 8.000+ data harus dilabeli manual, butuh tiga anotator selama dua minggu kerja penuh — di luar lingkup penelitian ini.

Standar dataset NLP populer juga menggunakan ukuran serupa: SemEval (200-500 sampel test), IMDB review (1.000 sampel test set). Justru jumlah 500 ini sudah cukup memberikan validitas statistik dan menjadi salah satu saran penelitian — diperluas menjadi 1.000-2.000 di penelitian selanjutnya.

Apa kontribusi utama penelitian ini dibanding penelitian sentimen yang sudah banyak ada?

Pertanyaan novelty — wajib bisa jawab

▼

Jawab: Ada tiga kontribusi utama Pak/Bu:

1. Kontribusi Metodologis — Penerapan Human-Validated Test Set Protocol untuk mengungkap circular validation bias pada pseudo-labeling otomatis. Pendekatan ini bisa jadi standar baru untuk penelitian analisis sentimen berbahasa Indonesia.

2. Kontribusi Akademis — Bukti empiris kuantitatif bahwa kualitas pseudo-labeler berdampak signifikan terhadap performa generalisasi model — diukur dengan gap 26.85% antara IndoBERT labeler dan Lexicon.

3. Kontribusi Praktis — Tersedianya model IndoBERT yang teradaptasi untuk domain pariwisata budaya Bali, beserta dataset 500 ulasan berlabel manual yang bisa jadi benchmark domain spesifik.

Apa keterbatasan penelitianmu? Kalau diulang, apa yang akan diperbaiki?

Uji refleksi akademik

▼

Jawab: Ada empat keterbatasan utama Pak/Bu:

Pertama, volume Human Test Set hanya 500. Idealnya 1.000-2.000 untuk representativitas statistik yang lebih kuat.

Kedua, anotasi dilakukan oleh satu anotator. Idealnya 3 anotator independen dengan Inter-Annotator Agreement diukur via Cohen's Kappa antar-anotator.

Ketiga, model pre-trained yang digunakan sebagai labeler bisa jadi membawa bias dari domain training awalnya (review aplikasi). Domain pariwisata punya karakteristik bahasa berbeda.

Keempat, distribusi kelas tidak seimbang — kelas Positif dominan. Bisa diperbaiki dengan teknik oversampling, weighted loss, atau focal loss.

Bagaimana memastikan label manual 500 itu konsisten dan tidak subjektif?

Validitas anotasi manual

▼

Jawab: Konsistensi label dijaga melalui dua mekanisme. Pertama, annotation guideline yang ditetapkan di awal — kriteria objektif untuk Positif/Netral/Negatif dengan contoh konkret untuk setiap kategori.

Kedua, label diuji silang terhadap rating bintang Google Maps sebagai cross-check internal. Hasilnya, 73.15% label manual konsisten dengan rating — yang 27% sisanya adalah edge case (mis. bintang 5 tapi isi keluhan, atau bintang 1 tapi sebenarnya memuji) yang justru menjadi nilai tambah label manual dibanding rating semata.

Sebagai keterbatasan, saya akui Inter-Annotator Agreement formal belum diukur karena hanya satu anotator — ini menjadi salah satu rekomendasi untuk penelitian selanjutnya.

Q10

Apa action item konkret yang bisa diambil pengelola Pura dari penelitian ini?

Uji manfaat praktis

▼

Jawab: Berdasarkan analisis wordcloud dan distribusi sentimen, ada empat isu strategis yang teridentifikasi dari sentimen negatif:

1. Pengelolaan pedagang informal — banyak keluhan praktik pemaksaan dan pemerasan turis. Solusi: zonasi pedagang resmi dan sistem ID khusus.

2. Transparansi harga tiket — keluhan harga tidak proporsional. Solusi: papan harga resmi di pintu masuk dan sistem pembayaran cashless.

3. Pengelolaan satwa liar — khususnya monyet di Uluwatu yang sering mencuri barang turis. Solusi: pelatihan staf dan peringatan visual.

4. Kebersihan kawasan — perlu peningkatan jadwal pembersihan dan fasilitas sanitasi.

Selain itu, sentimen positif tinggi terhadap aspek spiritual dan arsitektur menjadi asset yang perlu dipertahankan, bukan dirusak oleh komersialisasi berlebihan.