NUSA TENGGARA TIMUR — Google kembali memperbarui papan peringkat Android Bench, tolok ukur internal untuk mengukur kemampuan model bahasa besar (LLM) dalam menyelesaikan tugas coding di platform Android. Hasil terbaru menempatkan model teranyar Google sendiri, Gemini 3.5 Flash, di posisi yang janggal.
Biaya Melonjak, Performa Justru Melorot
Dalam pengujian resmi Google, Gemini 3.5 Flash menempati peringkat keenam. Posisinya berada di bawah model seperti GPT 5.5 dan Gemini 3.1 Pro Preview yang sudah diuji sejak Februari lalu.
Sorotan utama bukan hanya peringkatnya. Biaya komputasi untuk satu siklus benchmark pada Gemini 3.5 Flash mencapai 355,9 token dengan total biaya USD 147,1 (sekitar Rp 2,4 juta). Sebagai perbandingan, Gemini 3.1 Pro Preview hanya menggunakan 73,3 token dengan biaya sekitar sepertiganya.
Masalah tidak berhenti di biaya. Meski dipromosikan sebagai alternatif yang lebih cepat dan murah ketimbang Gemini 3.1 Pro, data Google mencatat latensi Gemini 3.5 Flash justru lebih tinggi. Celah performa yang dijanjikan hanya 6,1 persen, namun dalam pengujian Android Bench, kesenjangan kegagalan mencapai 9 persen.
Persaingan Model AI untuk "Vibe Coding"
Perusahaan seperti Google, OpenAI, dan Anthropic kini beralih fokus dari chatbot umum ke model agen yang unggul dalam coding. Tren bernama "vibe coding" ini memungkinkan pengguna menyerahkan sebagian besar proses pengembangan perangkat lunak kepada LLM.
Google menyusun peringkat Android Bench berdasarkan persentase keberhasilan model dalam memecahkan kasus coding Android dari sepuluh kali percobaan. Skor maksimal adalah 100. Beberapa model dengan performa tinggi bertahan di papan atas sejak Februari lalu.
Dalam daftar sepuluh besar terbaru, Claude Opus 4.7 berada di peringkat keempat dengan biaya per eksekusi lebih rendah dari Gemini 3.5 Flash. Google belum merilis skor untuk model terbaru seperti Claude Opus 4.8 atau Fable 5.
Konteks untuk Pengguna dan Developer
Meski hasil ini terlihat buruk bagi Gemini 3.5 Flash, model ini tetap menunjukkan peningkatan solid untuk tugas-tugas LLM dan agen lainnya. Google juga terus mengubah batasan biaya dan kuota penggunaan model-modelnya.
Peringkat Android Bench bersifat dinamis. Google memperbarui daftar ini secara berkala seiring hadirnya model baru yang diuji. Untuk keperluan coding Android secara spesifik, data ini bisa menjadi acuan awal yang cukup objektif. Namun, untuk tugas lain di luar pengembangan aplikasi Android, Gemini 3.5 Flash mungkin masih menjadi pilihan yang layak dipertimbangkan.