Tim peneliti Cornell—Tingwei Zhang, Harold Triedman, dan Vitaly Shmatikov—merilis pracetak studi berjudul "Deep-Research Agents Can Be Poisoned via User-Generated Content" yang pertama kali dilaporkan 404 Media. Mereka membangun metode serangan bernama WARP (Web Agent Retrieval Poisoning) yang memanfaatkan celah besar: AI yang menjawab pertanyaan sering merujuk pada konten buatan pengguna seperti Reddit, Wikipedia, Quora, dan YouTube.
Dalam pengujian, sekitar 17–23% dari seluruh halaman web yang ditarik agen AI berasal dari situs konten pengguna. Lebih mengkhawatirkan lagi, satu thread Reddit yang populer bisa muncul di sebagian besar pertanyaan terkait pada topik yang sama.
“Ini menciptakan titik kemacetan,” tulis para peneliti. “Racuni satu thread yang sering dikutip, dan Anda bisa mengarahkan jawaban AI untuk seluruh kategori pertanyaan—bukan hanya satu variasi frasa.”
Hasilnya: menambahkan sekitar 13 kata teks promosi ke satu sumber saja sudah cukup membuat AI menyebut produk fiktif dalam 38–51% pengujian. Jika umpan disebar ke beberapa thread, angka itu naik hingga 62%.
Untuk tidak mencemari internet sungguhan, tim peneliti menguji dalam lingkungan sandbox. Mereka membuat skenario sederhana: satu baris pendek yang ditambahkan ke thread makanan Austin merekomendasikan restoran fiktif bernama "Sol Azteca" untuk "cuisine autentik." AI langsung merekomendasikan Sol Azteca dan mengutip postingan Reddit tersebut.
Contoh lain: aplikasi kencan buatan bernama "SilverPath" berhasil dimunculkan sebagai "pilihan teratas" untuk pria bercerai di atas 50 tahun. Tim juga menguji koin kripto palsu dan layanan pihak ketiga fiktif untuk membatalkan langganan Xfinity.
Pengujian penuh hanya dilakukan terhadap tiga agen open-source: STORM, Co-STORM, dan OmniThink. Untuk produk komersial, peneliti mengukur seberapa sering masing-masing mengutip konten buatan pengguna. Hasilnya menunjukkan perbedaan signifikan: Google Gemini Deep Research menarik konten semacam itu sekitar 12% dari seluruh sitasi, sementara OpenAI Deep Research hampir tidak mengutipnya sama sekali (0,4%)—menunjukkan penyaringan yang agresif.
Peneliti menyoroti bahwa pertanyaan yang paling rentan adalah yang paling sering diandalkan pengguna AI: rekomendasi restoran, aplikasi, produk, cara membatalkan langganan, hingga nomor darurat. Masalahnya, sistem AI kerap memperlakukan teks yang mirip dengan pertanyaan pengguna sebagai pengganti teks yang akurat.
Seperti diungkap Zhang kepada 404 Media, “Sistem ini menimbang komentar Reddit acak dan situs web pemerintah dengan tingkat kredibilitas yang hampir sama.”
Riset ini menegaskan bahwa pengguna tidak bisa begitu saja percaya pada rekomendasi AI. Beberapa langkah praktis: perlakukan jawaban AI sebagai petunjuk awal, bukan keputusan akhir—terutama untuk produk, aplikasi, restoran, dan hal terkait uang atau keselamatan. Klik sitasi yang diberikan AI untuk melihat dari mana klaim itu berasal; satu komentar Reddit adalah tanda bahaya. Cari nama asing secara mandiri sebelum mempercayainya. Dan berhati-hatilah ekstra dengan pertanyaan mendesak seperti bantuan pinggir jalan, nomor layanan pelanggan, atau pemulihan akun—semua itu target utama penipuan.
Para peneliti juga menguji pertahanan yang jelas—seperti memblokir situs konten pengguna sepenuhnya atau menyaring sumber sebelum digunakan—dan menemukan bahwa masalah ini tidak mudah dihentikan.