perbandingan hasil benchmark Grok 4 dengan model AI lain. (x.com/xAI)
Klaim sebagai AI tercerdas tentu perlu pembuktian, dan xAI memamerkan serangkaian hasil benchmark yang sangat mengesankan. Menurut data dari Artificial Analysis, Grok 4 berhasil memuncaki Indeks Intelijen mereka dengan skor 73. Angka ini melampaui skor para pesaingnya, yaitu o3 dari OpenAI o3 dan Gemini 2.5 Pro dari Google, yang sama-sama meraih skor 70, dilansir VentureBeat.
Pada tes akademis super sulit bernama Humanity's Last Exam (HLE), Grok 4 tampak superior. Tanpa menggunakan alat bantu, Grok 4 meraih skor 25,4 persen, mengungguli Gemini 2.5 Pro (21,6 persen) dan OpenAI o3 (21 persen). Saat Grok 4 Heavy diizinkan menggunakan alat, skornya meroket hingga 44,4 persen, jauh meninggalkan Gemini 2.5 Pro yang hanya mampu meraih 26,9 persen di kategori yang sama.
Keunggulan juga terlihat pada tes penalaran abstrak ARC-AGI-2, yang dikenal sangat sulit untuk ditaklukkan AI. Di sini, Grok 4 mencetak skor fenomenal 15,9 persen, atau hampir dua kali lipat lebih tinggi dari skor pesaing terdekatnya, Claude 4 Opus (8,6 persen). Tak hanya di ranah akademis, dalam simulasi bisnis bernama Vending-Bench, Grok 4 juga terbukti mampu mengelola bisnis virtual dengan keuntungan lebih dari dua kali lipat dibanding Claude Opus 4.