perbandingan kemampuan coding Claude 4 dengan model AI lain. (x.com/AnthropicAI)
Selama ini, model-model Anthropic seperti 3.5 dan 3.7 Sonnet telah menjadi favorit para programmer. Namun, akhir-akhir ini posisi ini mulai diganggu oleh Gemini 2.5 Pro dari Google dan o3 dari OpenAI. Kali ini, Anthropic berusaha mempertahankan keunggulannya dan mengklaim Opus 4 sebagai model terbaik di dunia untuk coding.
Klaim ini bukan hanya bualan tanpa dasar. Claude Opus 4 mencapai skor 72,5 persen pada benchmark SWE-bench Verified yang mengukur kemampuan coding. Sebagai perbandingan, o3 hanya meraih 69,1 persen dan Gemini 2.5 Pro dengan 63,2 persen. Menariknya, Sonnet 4 malah sedikit lebih tinggi dari Opus dengan skor 72,7 persen.
Keunggulan juga terlihat pada Terminal-bench yang juga menguji kemampuan coding. Opus 4 memimpin dengan skor 43,2 persen dan Sonnet 4 dengan 35,5 persen. Keduanya mengalahkan o3 (30,2 persen) dan Gemini 2.5 Pro (25,3 persen).
Namun, di AIME 2025, untuk tolok ukur kemampuan matematika, Opus 4 hanya meraih skor 75,5 persen dan Sonnet 4 dengan 70,5 persen. Angka ini kalah dari o3 (88,9 persen) dan Gemini 2.5 Pro (83 persen). Keduanya juga kalah unggul dalam benchmark MMMU untuk penalaran visual. Tapi, sebaiknya pengguna jangan terlalu berpatok pada benchmark dan bisa mencoba langsung untuk menyesuaikan kebutuhan masing-masing.