perbandingan hasil tes reliabilitas o3-pro. (x.com/OpenAI)
Keunggulan utama o3-pro terletak pada performa dan keandalannya dalam menangani tugas-tugas penalaran tinggi. Para ahli yang melakukan peninjauan secara konsisten memberikannya nilai tinggi dalam hal kejelasan, akurasi, dan kemampuannya mengikuti instruksi yang kompleks. Klaim ini didukung oleh hasil yang mengesankan pada serangkaian tolok ukur (benchmark) akademik dan kompetitif.
Pada AIME 2024, sebuah tolok ukur yang menguji kemampuan matematika tingkat kompetisi, o3-pro mencapai akurasi 93 persen. Skor ini tidak hanya melampaui pendahulunya, o1-pro (86 persen) dan o3 standar (90 persen), tetapi juga disebut lebih baik dari model andalan Google, Gemini 2.5 Pro, dilansir TechCrunch. Dalam evaluasi keandalan "4/4", di mana model harus menjawab benar empat kali dari empat percobaan, o3-pro juga mencetak skor superior 90 persen.
Di bidang pengetahuan ilmiah, o3-pro juga menunjukkan dominasinya dalam tolok ukur GPQA Diamond yang berisi pertanyaan sains setingkat doktoral (PhD). Model ini berhasil melampaui Claude 4 Opus, model tercanggih dari Anthropic, dalam pengujian tersebut. Kemampuannya dalam pemrograman juga sangat menonjol, dibuktikan dengan pencapaian rating Elo 2748 pada tolok ukur Codeforces, jauh di atas o1-pro (1707).
Meski sangat cerdas, o3-pro tidak cocok untuk semua tugas, mengingat waktu berpikirnya yang lama. Model o3-pro adalah pilihan ideal untuk tugas yang menuntut analisis mendalam, penalaran kritis, dan akurasi tinggi. Misalnya kamu bisa meminta bantuan o3-pro untuk menganalisis data riset, masalah sains atau basis kode yang rumit. Kamu mungkin perlu menunggu lebih lama untuk jawabannya, namun hasilnya cenderung lebih memuaskan.
Sebaliknya, untuk percakapan sehari-hari yang lebih ringan dan butuh respons cepat, model ini kurang efisien. Penggunaan untuk diskusi santai, mencari ide resep masakan, atau bertanya tentang informasi umum lebih cocok ditangani oleh model standar. Misalnya, o3-pro bisa menghabiskan waktu hingga beberapa menit hanya untuk menjawab “Hai” atau “Apa bedanya layar OLED dan AMOLED?”. Model seperti GPT-4o sudah cukup untuk menjawab pertanyaan ringan seperti ini.