perbandingan hasil evaluasi Claude 3.7 Sonnet dengan model AI lain. (dok. Anthropic)
Claude 3.7 Sonnet menunjukkan performa mengesankan bahkan dalam mode standar. Saat diuji dalam benchmark SWE-bench untuk kemampuan coding, mode standar mencapai akurasi 62,3 persen, jauh melampaui OpenAI o3-mini yang hanya mencapai 49,3 persen. Model ini juga unggul dalam TAU-bench, tes yang mengukur kemampuan berinteraksi dengan tool, dengan skor 81,2 persen dibanding model o1 OpenAI yang mendapat 73,5 persen.
Saat mode penalaran diaktifkan, kemampuan Claude Sonnet 3.7 mengalami peningkatan di berbagai benchmark. Mode ini mendongkrak skor model dalam pengujian penalaran pascasarjana (GPQA Diamond) dari 68 persen menjadi 78,2 persen. Namun, Grok 3 masih unggul dalam bidang ini dengan skor 80,2 persen. Skor SWE-bench meningkat jadi 70,3 persen dan menempatkan Claude 3.7 Sonnet sebagai model paling andal dalam tugas coding. Peningkatan juga terlihat dalam tes matematika MATH 500, di mana akurasi model melonjak dari 82,2 persen menjadi 96,2 persen.
Claude sebelumnya sering mendapat kritik karena terlalu berhati-hati dan menolak banyak permintaan yang sebenarnya aman. Model terbaru Claude 3.7 Sonnet kini lebih pintar dalam menilai permintaan pengguna. Anthropic mengklaim model ini berhasil mengurangi penolakan yang tidak perlu hingga 45 persen dibanding versi sebelumnya.
Claude Sonnet telah diakui oleh industri akan kemampuan coding-nya yang superior. Berdasarkan blog Anthropic, perusahaan seperti Cursor, Cognition, Vercel, Replit, dan Canva telah menguji Claude 3.7 Sonnet. Mereka melaporkan peningkatan kemampuan Claude dalam menangani basis kode kompleks, membuat perubahan terencana, dan menghasilkan kode siap produksi dengan tingkat kesalahan minimal.