xAI meluncurkan Grok 3 dalam dua varian utama. Varian pertama adalah Grok 3 standar yang menjadi model unggulan dengan kemampuan paling lengkap. Varian kedua adalah Grok 3 mini yang dirancang memberikan respons lebih cepat meski dengan sedikit pengurangan akurasi.
Kedua varian Grok 3 menunjukkan performa mengagumkan dalam berbagai pengujian. Melansir dari blog xAI, Grok 3 standar berhasil mengalahkan GPT-4o dalam benchmark MMLU-pro (Massive Multitask Language Understanding) dengan skor 79,9 persen dibanding 72,6 persen. MMLU-pro merupakan pengujian yang menilai pemahaman dan penalaran model AI dalam 57 bidang berbeda seperti sains, sejarah, dan ilmu sosial melalui 10 ribu soal pilihan ganda dari tingkat sekolah menengah hingga PhD.
Model ini juga unggul dari Gemini 2.0 Pro dalam benchmark GPQA (General Purpose Question Answering) dengan skor 75,4 persen dibanding 64,7 persen. GPQA menguji kemampuan model dalam menjawab pertanyaan ilmiah yang membutuhkan penalaran mendalam dan pemahaman berbagai bidang sains. Sementara itu, Grok 3 mini tetap mempertahankan performa kompetitif dengan skor 78,9 persen di MMLU-pro dan 66,2 persen di GPQA.
Keunggulan Grok 3 juga terbukti di platform Chatbot Arena. Platform ini melakukan pengujian buta di mana pengguna membandingkan dan memilih respons terbaik dari berbagai model AI tanpa mengetahui identitasnya. Grok 3 meraih skor Elo 1402, mengalahkan GPT-4, Gemini, dan Claude dalam hal kualitas respons serta kemampuan memahami konteks.
Kedua varian Grok 3 juga mengungguli kompetitor dalam ujian matematika AIME 2024. Grok 3 standar meraih skor 52,2 persen, jauh di atas GPT-4o yang hanya mendapat 9,3 persen dan Claude 3.5 Sonnet dengan 16 persen. Grok 3 mini tidak kalah impresif dengan skor 39,7 persen, tetap lebih tinggi dari model-model unggulan lainnya.
Spesifikasi teknis Grok 3 menunjukkan lompatan besar dari model sebelumnya. Model ini memiliki jendela konteks hingga 1 juta token. Kapasitas ini delapan kali lebih besar dari generasi sebelumnya, Grok 2. Artinya, Grok 3 dapat memproses dokumen yang sangat panjang dan menangani prompt kompleks.