perbandingan benchmark o1-preview, o1 full dan o1 pro mode. (dok. OpenAI)
o1 pro mode hadir sebagai model eksklusif ChatGPT Pro. Model ini merupakan tingkat lanjut dari o1. Versi pro mode menggunakan daya komputasi lebih besar dan waktu lebih lama untuk menjawab pertanyaan pengguna. Model ini dirancang khusus menangani pertanyaan dan tugas kompleks melalui proses penalaran mendalam. Saat memproses tugas rumit, o1 pro mode akan menampilkan bar proses yang dapat memakan waktu hingga beberapa menit.
o1 pro mode menunjukkan performa luar biasa dalam berbagai pengujian standar yang mengukur kecerdasan AI. OpenAI menerapkan metode evaluasi "4/4 reliability" yang ketat, di mana model harus menjawab benar empat kali berturut-turut untuk dianggap berhasil. Standar ini memastikan jawaban model konsisten dan dapat diandalkan, bukan sekadar kebetulan benar.
o1 pro mode mencapai akurasi 86 persen dalam tes matematika AIME 2024, meningkat dari o1 dengan 78 persen dan o1-preview dengan 50 persen. AIME sendiri adalah kompetisi matematika bergengsi untuk siswa SMA Amerika. Di Codeforces, platform kompetisi pemrograman kompleks, o1 pro mode mencapai persentil ke-90, sedikit lebih tinggi dari o1 di persentil ke-89 dan jauh mengungguli o1-preview di persentil ke-62. Meski terjadi peningkatan drastis dari o1-preview ke o1, selisih performa antara o1 dan o1 pro mode tidak terlalu signifikan dalam bidang pemrograman.
Dalam tes GPQA Diamond, serangkaian pertanyaan sains tingkat doktoral yang mencakup berbagai disiplin ilmu, o1 pro mode mencapai akurasi 79 persen. Pencapaian ini melampaui o1 yang mencapai 76 persen dan o1-preview dengan 74 persen. Meski peningkatannya lebih moderat dibanding benchmark lain, angka ini memberi gambaran kedalaman pemahaman model ini terhadap konsep-konsep sains kompleks.
o1 pro mode cocok untuk tugas-tugas berat berkat kemampuan penalaran tingkat lanjutnya. Melansir Mashable, model ini sangat berguna di bidang data science, pemrograman, dan analisis hukum karena tingkat akurasi dan reliabilitasnya yang tinggi. Para peneliti dapat memanfaatkan o1 pro mode untuk mengotomatisasi tugas-tugas riset seperti review literatur, analisis data dan perhitungan matematika. Melansir Datacamp, o1 pro mode juga dapat membantu pengacara menganalisis dokumen legal dan mencari preseden hukum yang relevan.