Yunike Puspita Esai Terverifikasi · bukan retorika

Teknologi & Tata Kelola

Tahun Ketika Niat Tidak Lagi Cukup

Catatan tentang AI agentik 2026, kebangkitan “AI sebagai juri”, dan mengapa verifiabilitas — bukan retorika — kini menjadi etos kerja, dari ruang koding sampai ruang publik.

Ada satu instruksi yang sedang ramai dibicarakan para perakit kecerdasan buatan tahun ini, dan bunyinya sederhana: berikan mesin sebuah tujuan, lalu biarkan ia berputar pada dirinya sendiri — /goal — sampai ia bisa membuktikan tujuan itu tercapai. Allie Miller, salah satu suara yang paling banyak diikuti di ranah ini, memberi contoh yang jernih. “Edit tulisan ini sampai di bawah 500 kata” adalah perintah yang baik, katanya, karena jawabannya hanya ya atau tidak. Tetapi “edit tulisan ini sampai lebih lucu” adalah perintah yang cacat — terlalu subjektif, tidak ada garis yang bisa dijadikan ukuran. Maka, jika Anda tetap menginginkannya, Anda harus membangun tiga juri buatan, mendefinisikan kapan sesuatu disebut “lebih lucu”, dan baru setelah ketiganya sepakat, putaran itu berhenti.

Saya tertegun di depan kalimat itu lebih lama dari yang saya duga. Bukan karena teknologinya, melainkan karena pelajaran yang diam-diam ia bawa: tujuan yang tidak bisa Anda periksa kebenarannya bukanlah instruksi, melainkan harapan. Dan kalau saya jujur, kita sudah terlalu lama menjalankan banyak hal — pekerjaan, lembaga, bahkan janji-janji publik — di atas harapan yang menyamar sebagai perintah.

Dari “perintah” ke “tujuan yang bisa diperiksa”

Inilah yang sebenarnya bergeser di 2026. Generasi alat seperti Claude Code dan Codex tidak lagi menunggu kita mengetik satu langkah demi satu langkah. Kita menyodorkan tujuan, dan mesin bekerja dalam putaran: mencoba, menilai hasilnya sendiri, memperbaiki, mencoba lagi — sampai sebuah syarat terpenuhi. Para perekayasa menyebut syarat itu eval, evaluasi: definisi terukur tentang apa yang disebut “berhasil”. Tanpa eval, putaran itu tidak punya pintu keluar. Mesin akan terus berputar mengejar sesuatu yang tak pernah bisa ia ketahui sudah dicapai atau belum.

Yang menarik, beban beratnya tidak ada pada kerja yang berulang itu. Mesin sanggup mengulang ribuan kali tanpa lelah dan tanpa mengeluh. Beban beratnya ada di hulu — pada manusia yang harus merumuskan, sejak awal, ukuran apa yang sah dipakai untuk menyatakan tujuan tercapai. Mesin memaksa kita melakukan hal yang paling sering kita hindari: menerjemahkan kata-kata mulia menjadi kriteria yang bisa diuji.

“AI sebagai juri” dan beban yang berpindah

Ketika tujuan terlalu halus untuk diukur dengan penggaris — lebih lucu, lebih jernih, lebih meyakinkan — muncullah pola yang khas zaman ini: AI sebagai juri. Kita tidak lagi sekadar meminta mesin membuat sesuatu; kita meminta mesin lain menilainya, dengan rubrik yang kita susun. Pekerjaan intelektual yang sesungguhnya bukan lagi menulis jawaban, melainkan merumuskan pertanyaan: apa, sebenarnya, yang membuat sesuatu “baik”?

Di titik ini mesin menampar kita dengan kejujuran yang jarang kita miliki. Ia menolak berpura-pura tahu apa itu “baik” kalau kita sendiri belum mendefinisikannya. Ia tidak mau lulus dari ujian yang soalnya kabur. Kita, manusia, justru sering melakukan sebaliknya — menyatakan sesuatu berhasil tanpa pernah menyepakati apa arti berhasil.

Cermin bagi ruang publik

Di sinilah esai ini berhenti menjadi soal teknologi dan mulai menjadi soal kita. Sebab lembaga pun hidup dari tujuan. “Tingkatkan partisipasi”, “jaga integritas”, “pulihkan kepercayaan publik” — kalimat-kalimat yang kita ucapkan dengan khidmat di setiap rapat dan setiap dokumen perencanaan. Tetapi cobalah ajukan pertanyaan yang sama yang diajukan mesin itu: dari mana kita tahu tujuan ini sudah tercapai? Mana ujinya? Siapa jurinya, dan dengan rubrik apa?

Pengalaman bertahun-tahun di lembaga mengajarkan saya sebuah paradoks yang tidak nyaman. Sebuah prosedur bisa lulus seluruh daftar periksa — setiap kolom dicentang, setiap tahapan dipenuhi — dan pada saat yang sama gagal memenangkan kepercayaan satu orang pun di luar sana. Kepatuhan yang tampak tidak otomatis menjadi legitimasi yang dirasakan. Kita pandai memverifikasi yang mudah dihitung, dan diam-diam berharap yang sulit dihitung akan mengikut dengan sendirinya. Ia jarang mengikut.

Disiplin verifiabilitas memaksa satu pertanyaan yang sehat: apakah yang kita ukur memang hal yang kita pedulikan — atau sekadar hal yang kebetulan mudah diukur?

Yang tidak bisa diserahkan ke juri mana pun

Tetapi ada bahaya di ujung yang berlawanan, dan saya tidak ingin esai ini terdengar seperti pemujaan terhadap angka. Begitu sebuah ukuran kita jadikan target, ia cenderung berhenti menjadi ukuran yang jujur; orang akan mengejar angkanya, bukan hal yang semestinya diwakili angka itu. Tidak semua yang berharga bisa dimampatkan menjadi kriteria yang lulus-atau-gagal. Rasa adil yang dialami warga, nurani seorang penyelenggara yang menolak jalan pintas, kehangatan sebuah pelayanan — semua itu nyata, dan tak satu pun juri buatan sanggup menimbangnya secara utuh.

Maka verifiabilitas sebaiknya kita perlakukan sebagai disiplin, bukan agama. Ia alat yang ampuh untuk menjernihkan tujuan dan menutup pintu bagi retorika kosong. Tetapi ia bukan pengganti penilaian manusia atas hal-hal yang justru paling menentukan martabat sebuah pekerjaan.

2026 sedang mengajari kita keterampilan yang berharga: merumuskan tujuan yang bisa diperiksa, lalu membiarkan kerja keras yang berulang dikerjakan oleh mesin yang tak kenal lelah. Itu pelajaran baik, dan saya menyambutnya. Namun pertanyaan yang tertinggal di kepala saya, setelah semua putaran itu berhenti dan semua juri buatan menyatakan “lulus”, justru pertanyaan yang paling manusiawi: di tengah dunia yang semakin pandai memverifikasi segala hal, apa yang dengan sengaja tetap kita simpan untuk diputuskan oleh hati nurani — bukan oleh juri mana pun?