◆ Platform Analitik NLP · Riset & Literasi Pemilu

Memahami Percakapan Publik tentang Demokrasi — Terukur, Tertelusur, Beretika

PetaSuara mengubah ribuan dokumen publik — berita lokal, percakapan media sosial, dan transkrip — menjadi peta tema, sentimen, dan dinamika wacana yang setiap angkanya dapat ditelusuri kembali ke sumbernya. Dibangun untuk peneliti, media, lembaga riset, dan program literasi pemilih.

🧠 BERTopic + IndoBERT 🔎 Provenance Menyeluruh ✅ Gerbang QC 🛡️ Privacy-by-design 📊 Agregat Wilayah
⚖️ Bukan jasa pemenangan kandidat. PetaSuara difokuskan pada riset, literasi, dan analisis wacana publik. Mematuhi UU No. 27/2022 (PDP) — tanpa profiling individu pemilih; unit analisis terkecil adalah dokumen publik dan agregat wilayah.
✓ Metodologi terbuka & dapat diaudit  ·  ✓ Replikasi & peningkatan metode Mathaisel & Comm (2021)
petasuara — Peta Wacana Dapil
Dokumen
12.480
Topik
24
QC Lulus
κ .81
Sumber
37
Topik Wacana Teratas (BERTopic)
Infrastruktur & jalan desa22%
Layanan kesehatan18%
Lapangan kerja muda15%
🔎
Provenance Aktif
Hasil → model run → dokumen → sumber → waktu pengambilan
✓ LULUS

Dirancang untuk kerja riset, literasi, dan jurnalisme data

🎓 Kampus & Lembaga Riset 📰 Media & Jurnalisme Data 🗳️ Penyelenggara Pemilu (Literasi) 🤝 Organisasi Masyarakat Sipil 📈 Lembaga Survei 🏛️ Pengkaji Kebijakan Publik
Masalah → Solusi

Dari Kliping Manual ke Peta Wacana yang Tertelusur

Memantau percakapan publik secara manual itu lambat, subjektif, dan mustahil diaudit. PetaSuara menggantinya dengan pipeline yang terukur dan transparan.

😟 Cara Lama (Manual)

  • Kliping & baca manual ribuan berita — tak terskala
  • Label sentimen subjektif, tanpa uji reliabilitas
  • Slang & bahasa daerah salah ditafsir mesin generik
  • Angka muncul tanpa jejak: sulit ditelusuri sumbernya
  • Risiko menyentuh data pribadi tanpa kerangka etika

🚀 Dengan PetaSuara

  • Pemodelan topik otomatis pada korpus besar (BERTopic)
  • Sentimen IndoBERT + uji reliabilitas antar-penilai (κ/α)
  • Kamus normalisasi slang per wilayah yang terversi
  • Provenance menyeluruh — tiap angka tertelusur ke sumber
  • Privacy-by-design: hanya data publik, agregat wilayah
Modul Inti

Satu Pipeline, dari Sumber ke Wawasan

Enam modul terintegrasi — dari akuisisi data publik hingga laporan yang hanya terbit setelah lolos gerbang kendali mutu.

📡

Akuisisi Multi-kanal

Mengumpulkan dokumen publik dari beragam kanal.

  • Berita lokal & portal daerah
  • Percakapan media sosial publik
  • Transkripsi audio/video (faster-whisper)
  • Data pemilu & statistik publik
🧹

Prapemrosesan & Normalisasi

Membersihkan & menormalkan teks sebelum dimodelkan.

  • Kamus normalisasi slang per wilayah
  • Deduplikasi MinHash
  • Deteksi bahasa (ID + bahasa daerah)
  • Filter spam & konten non-relevan
🧠

Pemodelan Topik (BERTopic)

Menemukan tema wacana yang sedang mengemuka.

  • Klaster topik otomatis & dinamis
  • Tren topik antar-waktu
  • Peta isu per wilayah/dapil
  • Peningkatan dari LDA klasik
💬

Analisis Sentimen (IndoBERT)

Membaca nada & posisi pesan berbahasa Indonesia.

  • Sentimen positif/netral/negatif
  • Anotasi posisi pesan berbantuan LLM
  • Konteks bahasa Indonesia + daerah
  • Peningkatan dari TextBlob

Gerbang QC & Reliabilitas

Mutu sebagai arsitektur, bukan sekadar prosedur.

  • Pelabelan ganda + κ/α antar-penilai
  • Benchmark Macro F1 terhadap gold standard
  • Hasil tak mengalir ke laporan sebelum LULUS
  • Jejak keputusan QC tersimpan
🔎

Provenance & Laporan

Setiap angka dapat dipertanggungjawabkan.

  • Telusur: hasil → model run → dokumen → sumber
  • Template laporan diagnostik & benchmark
  • Lampiran metodologi terbuka
  • Ekspor untuk publikasi/riset
Pipeline

Aset = Pipeline, Produk = Laporan

Kamus, model, gold standard, dan template laporan terversi seperti kode — sehingga setiap hasil dapat direproduksi dan diaudit.

Sumber Publik
Akuisisi
Normalisasi
Prapemrosesan
BERTopic
Pemodelan Topik
IndoBERT
Sentimen & Posisi
κ / α · F1
Gerbang QC
Hanya LULUS
Laporan + Provenance
Pratinjau Dashboard

Wawasan Wacana dalam Sekejap

Peta topik, dinamika sentimen, dan status kendali mutu dalam satu tampilan (data ilustratif untuk peraga; bukan data nyata).

Dokumen Diproses
12.480
Topik Aktif
24
Reliabilitas (κ)
0,81
Macro F1
0,87
Tren Topik Wacana (12 minggu)
Infrastruktur & jalan desa topic_0322%
Layanan kesehatan topic_0718%
Lapangan kerja muda topic_1115%
Pendidikan & sekolah topic_0211%
M1M3M5M7M9M11
Distribusi Sentimen
46%
positif
Positif 46%
Netral 28%
Negatif 26%
🔎 Setiap segmen dapat ditelusuri ke dokumen sumbernya. Tidak ada data individu — hanya agregat wilayah.

Tampilan di atas adalah peraga ilustratif untuk menggambarkan keluaran analitik. Belum tersedia demo publik — PetaSuara dikembangkan sebagai aset riset dan dikolaborasikan secara terkurasi.

Mengapa PetaSuara

Mesin yang Di-upgrade, Etika yang Dikedepankan

🧠

Metode Mutakhir

BERTopic menggantikan LDA; IndoBERT menggantikan TextBlob — relevan untuk konteks Indonesia.

🔎

Tertelusur Penuh

Provenance dari hasil hingga sumber & waktu pengambilan — siap publikasi ilmiah.

Mutu Terjamin

Gerbang QC berbasis reliabilitas antar-penilai & benchmark, bukan klaim semata.

🛡️

Privasi sejak Desain

Tanpa tabel individu pemilih; agregasi minimal kelurahan/kecamatan; selaras UU PDP.

Prasyarat, bukan pelengkap

Etika, Netralitas, dan Kepatuhan Hukum

Bagi kami, kerangka etika adalah syarat keberadaan produk — bukan tambahan. PetaSuara diposisikan sebagai alat riset, literasi, dan jurnalisme data; bukan jasa pemenangan kandidat.

🚧 Firewall Penyelenggara

Tidak dioperasikan, dimiliki aktif, atau dikonsultani oleh siapa pun yang sedang menjabat pada penyelenggara pemilu (KPU/Bawaslu/DKPP). Selama masa jabatan, fungsinya difokuskan pada layanan non-pemenangan: analitik literasi pemilih, riset akademik, dan jasa untuk media & lembaga riset.

🛡️ Perlindungan Data (PDP)

Kepatuhan UU No. 27/2022: hanya data publik; tanpa profiling individu; agregasi minimal kelurahan/kecamatan. Tidak menyentuh DPT atau data kependudukan non-publik dalam bentuk apa pun.

⚖️ Integritas Wacana

Larangan penggunaan output untuk disinformasi, kampanye hitam, politik identitas yang melanggar aturan, atau operasi buzzer. Lampiran metodologi terbuka pada setiap laporan; kesediaan diaudit pihak ketiga.

Model Kolaborasi

Tiga Jalur Pemanfaatan Non-Pemenangan

Lingkup dan bentuk kerja sama menyesuaikan tujuan riset/literasi Anda. Mulailah dari percakapan — kami petakan kebutuhan sebelum menyepakati lingkup.

Riset Akademik & Kebijakan

Untuk kampus, peneliti, dan pengkaji kebijakan publik.
  • Pembangunan korpus & pemodelan topik
  • Analisis sentimen tervalidasi (κ/α, F1)
  • Provenance untuk publikasi ilmiah
  • Metodologi & kode dapat dibuka
Diskusikan
★ Paling Relevan

Literasi & Pemantauan Wacana

Untuk penyelenggara pemilu (literasi) & organisasi masyarakat sipil.
  • Peta isu & kualitas diskursus publik (agregat)
  • Deteksi pola disinformasi/hoaks
  • Dasbor literasi pemilih per wilayah
  • Laporan periodik yang dapat diaudit
  • Tanpa data individu — sesuai PDP
Diskusikan

Jurnalisme Data & Media

Untuk ruang redaksi & liputan berbasis data.
  • Analitik wacana untuk liputan mendalam
  • Visualisasi tren topik & sentimen
  • Lampiran metodologi terbuka
  • Verifikasi sumber yang tertelusur
Diskusikan

* Semua jalur bersifat non-pemenangan dan tunduk pada kerangka etika di atas. Lingkup, bentuk, dan tata kelola data disepakati bersama di awal kerja sama.

Cara Kerja Sama

Dari Lingkup Beretika ke Laporan Tertelusur

Lingkup & Etika

Penetapan tujuan, batas data, dan kepatuhan PDP.

Akuisisi & Kurasi

Pengumpulan dokumen publik & normalisasi per wilayah.

Pemodelan

BERTopic + IndoBERT untuk topik & sentimen.

QC & Validasi

Uji reliabilitas & benchmark sebelum hasil dipakai.

Laporan & Diseminasi

Laporan + provenance + lampiran metodologi.

Dibangun di atas Fondasi Open-Source yang Teruji

BERTopicIndoBERTfaster-whisperPostgreSQL + pgvector FastAPIRedis / RQMinIODocker
FAQ

Pertanyaan yang Sering Diajukan

Apakah PetaSuara jasa pemenangan caleg?

Tidak. PetaSuara difokuskan pada riset, literasi pemilih, dan jurnalisme data — bukan jasa pemenangan kandidat. Sesuai kerangka etika produk, selama pemiliknya menjabat sebagai penyelenggara pemilu, fungsinya diputar 180 derajat menjadi layanan non-pemenangan (analitik literasi, riset akademik, dan jasa untuk media/lembaga riset).

Apakah menyimpan atau memproses data pribadi pemilih?

Tidak. Selaras UU No. 27/2022 (PDP), PetaSuara hanya menggunakan data publik, tanpa profiling individu, dengan agregasi minimal di level kelurahan/kecamatan. Sistem tidak menyentuh DPT atau data kependudukan non-publik.

Apakah mendukung bahasa daerah & bahasa gaul?

Ya. Tersedia kamus normalisasi slang per wilayah yang terversi, ditambah deteksi bahasa dan analisis berbasis IndoBERT yang relevan untuk konteks Indonesia.

Seberapa dapat dipercaya hasilnya?

Hasil otomatis tidak langsung dipakai. Ada gerbang QC: pelabelan ganda dengan uji reliabilitas antar-penilai (κ/α) dan benchmark Macro F1 terhadap gold standard. Hasil baru mengalir ke laporan setelah status QC LULUS, dan setiap angka tertelusur ke sumbernya (provenance).

Apakah ada demo publik yang bisa dicoba?

Belum. Berbeda dengan aplikasi lain di laman karya yang berpurwarupa publik, PetaSuara dikembangkan sebagai aset riset dan dikolaborasikan secara terkurasi. Silakan mulai dari percakapan untuk mendiskusikan lingkup riset/literasi Anda.

Bagaimana metodologinya dipertanggungjawabkan?

Setiap laporan menyertakan lampiran metodologi terbuka, dan kami bersedia diaudit pihak ketiga. Pipeline (kamus, model, gold standard, template) terversi sehingga hasil dapat direproduksi.

Kolaborasi riset & literasi

Mari Petakan Wacana Publik dengan Cara yang Beretika

Punya pertanyaan riset, kebutuhan literasi pemilih, atau liputan berbasis data? Diskusikan tujuan Anda — kami bantu rancang lingkup yang terukur, tertelusur, dan patuh PDP.

🌐 yunikepuspita.com  ·  ✉ yunike.puspita@gmail.com  ·  💬 +62 896-1706-1983