Hasil Benchmark Android Coding Terbaru: Gemini 3.5 Flash Kalah Cepat, Biaya Tiga Kali Lipat Lebih Mahal dari Pendahulunya

Sabtu, 13 Juni 2026 • 11:54:01 WIB

NUSA TENGGARA TIMUR — Google kembali memperbarui papan peringkat Android Bench, tolok ukur internal untuk mengukur kemampuan model bahasa besar (LLM) dalam menyelesaikan tugas coding di platform Android. Hasil terbaru menempatkan model teranyar Google sendiri, Gemini 3.5 Flash, di posisi yang janggal.

Biaya Melonjak, Performa Justru Melorot

Dalam pengujian resmi Google, Gemini 3.5 Flash menempati peringkat keenam. Posisinya berada di bawah model seperti GPT 5.5 dan Gemini 3.1 Pro Preview yang sudah diuji sejak Februari lalu.

Sorotan utama bukan hanya peringkatnya. Biaya komputasi untuk satu siklus benchmark pada Gemini 3.5 Flash mencapai 355,9 token dengan total biaya USD 147,1 (sekitar Rp 2,4 juta). Sebagai perbandingan, Gemini 3.1 Pro Preview hanya menggunakan 73,3 token dengan biaya sekitar sepertiganya.

Masalah tidak berhenti di biaya. Meski dipromosikan sebagai alternatif yang lebih cepat dan murah ketimbang Gemini 3.1 Pro, data Google mencatat latensi Gemini 3.5 Flash justru lebih tinggi. Celah performa yang dijanjikan hanya 6,1 persen, namun dalam pengujian Android Bench, kesenjangan kegagalan mencapai 9 persen.

Persaingan Model AI untuk "Vibe Coding"

Perusahaan seperti Google, OpenAI, dan Anthropic kini beralih fokus dari chatbot umum ke model agen yang unggul dalam coding. Tren bernama "vibe coding" ini memungkinkan pengguna menyerahkan sebagian besar proses pengembangan perangkat lunak kepada LLM.

Google menyusun peringkat Android Bench berdasarkan persentase keberhasilan model dalam memecahkan kasus coding Android dari sepuluh kali percobaan. Skor maksimal adalah 100. Beberapa model dengan performa tinggi bertahan di papan atas sejak Februari lalu.

Dalam daftar sepuluh besar terbaru, Claude Opus 4.7 berada di peringkat keempat dengan biaya per eksekusi lebih rendah dari Gemini 3.5 Flash. Google belum merilis skor untuk model terbaru seperti Claude Opus 4.8 atau Fable 5.

Konteks untuk Pengguna dan Developer

Meski hasil ini terlihat buruk bagi Gemini 3.5 Flash, model ini tetap menunjukkan peningkatan solid untuk tugas-tugas LLM dan agen lainnya. Google juga terus mengubah batasan biaya dan kuota penggunaan model-modelnya.

Peringkat Android Bench bersifat dinamis. Google memperbarui daftar ini secara berkala seiring hadirnya model baru yang diuji. Untuk keperluan coding Android secara spesifik, data ini bisa menjadi acuan awal yang cukup objektif. Namun, untuk tugas lain di luar pengembangan aplikasi Android, Gemini 3.5 Flash mungkin masih menjadi pilihan yang layak dipertimbangkan.

Pencarian

Hasil Benchmark Android Coding Terbaru: Gemini 3.5 Flash Kalah Cepat, Biaya Tiga Kali Lipat Lebih Mahal dari Pendahulunya

Biaya Melonjak, Performa Justru Melorot

Persaingan Model AI untuk "Vibe Coding"

Konteks untuk Pengguna dan Developer

Berita Lainnya

Fitur Visual Intelligence iOS 27 Makin Pintar, Bisa Hitung Gizi Makanan hingga Bagi Tagihan Restoran

Diskon Aplikasi dan Game Android Akhir Pekan: Montezuma 2 hingga Slaps And Beans 2, Plus Diskon Google Pixel 10 Pro Rp 6,9 Juta

Instagram Akhirnya Izinkan Pengguna Atur Ulang Foto di Grid Profil

14 HP Baru Rilis Mei-Juni 2026: Samsung, Xiaomi, iPhone, dan Vivo X300 Ultra Siap Bersaing

Galaxy S25 FE Dapat Fitur Pemindai Sidik Jari Lebih Akurat, S25 Ultra Justru Belum Kebagian

Pengguna Perplexity Pro Mengeluh Kuota Model AI Canggih Dipangkas, Harga Langganan Melonjak

Pilihan

Polisi Tangkap Tiga Penjual Sisik Trenggiling dan Kulit Beruang di Sumut

PP PMKRI Ajak Pemerintah dan Mahasiswa di NTT Jaga Kondusifitas, Kritik Disampaikan secara Bertanggung Jawab

Sambut Tahun Baru Islam, Tradisi Grebeg Suro di Tulungagung Jadi Magnet Ekonomi Rakyat

Debut Perdana di FNRP, Reyog Garudo Djoyo Manggolo SRT 5 Ponorogo Raih 10 Besar Pelestari Budaya

Gempa M 6,7 Guncang Palu, Warga Berhamburan dan Bangunan Dilaporkan Rusak

Berita Terkini

Cuaca NTT Hari Ini, 17 Juni 2026: Cerah Merata di 6 Wilayah, Suhu Capai 32°C — Waspada Panas Ekstrem di Manggarai

Fitur Visual Intelligence iOS 27 Makin Pintar, Bisa Hitung Gizi Makanan hingga Bagi Tagihan Restoran

Polisi Tangkap Tiga Penjual Sisik Trenggiling dan Kulit Beruang di Sumut

PP PMKRI Ajak Pemerintah dan Mahasiswa di NTT Jaga Kondusifitas, Kritik Disampaikan secara Bertanggung Jawab

Sambut Tahun Baru Islam, Tradisi Grebeg Suro di Tulungagung Jadi Magnet Ekonomi Rakyat