Dalam dunia AI, kemampuan sebuah model biasanya diukur melalui berbagai uji kemampuan baku yang disebut benchmark. Meta dengan bangga menyatakan bahwa Llama 3 8B, varian dengan 8 miliar parameter, berhasil mengungguli beberapa model lain yang setara, seperti Mistral 7B dan Gemma 7B. Keunggulan Llama 3 8B terlihat di setidaknya 9 benchmark, termasuk MMLU untuk menilai pengetahuan umum, ARC untuk mengukur kemampuan pemecahan masalah, dan DROP untuk menguji pemahaman bacaan.
Lebih mengesankan lagi, Llama 3 70B, varian dengan 70 miliar parameter diklaim mampu bersaing dengan model-model AI terbaik saat ini. Beberapa model tersebut seperti Gemini 1.5 Pro dari Google dan Claude 3 Sonnet dari Anthropic. Bahkan, pada beberapa benchmark seperti MMLU, HumanEval (mengukur kemampuan pemrograman), dan GSM-8K (menguji keterampilan matematika), Llama 3 70B dilaporkan unggul dari kedua model tersebut. Hal menarik lainnya adalah Meta juga mengembangkan serangkaian uji kemampuan mereka sendiri untuk membandingkan performa Llama 3 70B dengan model-model lainnya. Dalam uji ini, Llama 3 70B dilaporkan unggul dalam berbagai tugas, mulai dari pemrograman, penulisan kreatif, hingga meringkas teks.