perbandingan benchmark Llama 4 Maverick dengan model AI lain. (dok. Meta)
Llama 4 Maverick menunjukkan performa sangat baik dalam berbagai tolok ukur dibandingkan model kompetitor. Dalam pemahaman gambar, Maverick meraih skor 90,0 pada ChartQA, melampaui Gemini 2.0 Flash (88,3) dan GPT-4o (85,7). Pada DocVQA, Maverick mencapai skor 94,4, unggul dari GPT-4o yang hanya meraih 92,8. Kemampuan ini menjadikan Maverick pilihan tepat untuk tugas-tugas yang melibatkan analisis dokumen visual.
Dalam coding, Maverick menorehkan skor 43,4 pada LiveCodeBench, jauh di atas GPT-4o (32,3) dan Gemini Flash (34,5). Model ini bahkan hampir menyamai DeepSeek v3.1 yang mencapai 45,8 meski DeepSeek memiliki parameter aktif lebih banyak. Pada pengujian penalaran dan pengetahuan, Maverick meraih 80,5 pada MMLU Pro dan 69,8 pada GPQA Diamond. Angka ini mengungguli Gemini Flash yang masing-masing hanya mencapai 77,6 dan 60,1.
Scout juga tidak kalah mengesankan dengan kemampuan yang seimbang untuk ukurannya. Dalam pemahaman gambar, Scout mencapai 88,8 pada ChartQA dan 94,4 pada DocVQA, mengalahkan Gemini 2.0 Flash-Lite (73,0 dan 91,2) dan Gemma 3. Pada tolok ukur penalaran gambar seperti MMMU dan MathVista, Scout meraih skor 69,4 dan 70,7, unggul dari Gemma 3 (64,9 dan 67,6), Mistral 3.1 (62,8 dan 68,9), dan Gemini Flash-Lite (68,0 dan 57,6).
Llama 4 Behemoth, meski masih dalam pengembangan, menunjukkan potensi menarik pada tolok ukur STEM. Model ini meraih skor 95,0 pada MATH-500, lebih tinggi dari Gemini 2.0 Pro (91,8) dan jauh melampaui Claude Sonnet 3.7 (82,2). Pada GPQA Diamond, Behemoth mencapai 73,7, mengungguli Sonnet 3.7 (68,0), Gemini 2.0 Pro (64,7), dan GPT-4.5 (71,4).
Meta juga menyoroti perbaikan Llama 4 terkait bias politik. Model ini diklaim lebih netral dalam merespons topik politik dan sosial yang kontroversial. Llama 4 hanya menolak sekitar 2 persen pertanyaan tentang topik politik dan sosial yang diperdebatkan, turun dari 7 persen pada Llama 3.3. Meta menyebutkan bahwa Llama 4 secara dramatis lebih seimbang dalam merespons pertanyaan yang bervariasi.