perbandingan hasil benchmark Claude Sonnet 4.5 dengan model AI lain (anthropic.com)
Claude Sonnet 4.5 diklaim mampu ngoding hingga 30 jam secara otonom, empat kali lebih lama dari pendahulunya, Claude Opus 4. Kemampuan ini sangat penting untuk tugas-tugas agentic, yaitu pekerjaan yang membutuhkan AI untuk bekerja di latar belakang dalam waktu yang lama. Dengan fokus yang panjang ini, AI bisa diandalkan untuk mengelola riset mendalam, memecahkan masalah coding yang rumit, atau menyelesaikan proyek multitahap yang kompleks.
Contohnya, Sonnet 4.5 dilaporkan berhasil membuat aplikasi obrolan yang mirip Slack dari nol. Selama proses tersebut, AI ini menulis 11 ribu baris kode, mengatur layanan database dan membeli nama domain secara mandiri. Dilansir dari TechCrunch, AI ini bahkan mampu melakukan audit keamanan SOC 2 untuk memastikan aplikasi yang dibuatnya aman untuk digunakan.
Kemampuan Sonnet 4.5 tidak hanya sebatas menulis kode, tetapi juga mengoperasikan komputer layaknya manusia. Menurut blog resmi Anthropic, AI ini bisa menavigasi browser, mengisi spreadsheet, dan menyelesaikan berbagai tugas di berbagai aplikasi software. Sonnet 4.5 mencatat skor 61,4 persen di benchmark OSWorld, sebuah tes yang mengukur kemampuan AI dalam menggunakan komputer untuk tugas di dunia nyata.
Sonnet 4.5 dibekali dua mode kerja yang bisa dipilih pengguna. Mode standar dirancang untuk memberikan respons yang cepat, cocok untuk tugas-tugas ringan sehari-hari. Sementara itu, mode "extended thinking" memungkinkan AI berpikir lebih dalam dan bertahap untuk menghasilkan jawaban yang lebih akurat, meski butuh waktu lebih lama.