Iklan - Scroll untuk Melanjutkan
Baca artikel IDN Times lainnya di IDN App
aplikasi mobile DeepSeek dan ChatGPT. (unsplash.com/Saradasish Pradhan)

OpenAI baru-baru ini merilis o3-mini, model AI penalaran (reasoning model) terbarunya. Model ini muncul setelah kesuksesan DeepSeek R1 yang berhasil menjadi nomor satu di Apple App Store AS. DeepSeek R1 telah menarik perhatian banyak pihak karena kemampuan bernalarnya yang setara dengan model o1 milik OpenAI.

O3-mini hadir sebagai penerus dari o1, model penalaran pertama OpenAI yang dirilis September 2024. Model AI penalaran memiliki keunikan karena membutuhkan waktu lebih lama dalam memproses informasi. Mereka akan memeriksa fakta secara bertahap sebelum memberikan jawaban. Akibatnya, respon yang dihasilkan lebih akurat walau memerlukan waktu beberapa detik hingga menit lebih lama. Mari bandingkan kedua model AI penalaran ini secara mendalam.

1. Perbandingan performa di berbagai benchmark   

Melansir VentureBeat, DeepSeek R1 berhasil meraih skor 79,8 persen pada tes matematika AIME 2024. Model ini juga mencapai akurasi 97,3 persen pada MATH-500. Rating Codeforces R1 mencapai 2.029, mengungguli 96,3 persen programmer manusia. Pengetahuan umum R1 juga terbilang baik dengan skor 90,8 persen pada benchmark MMLU.

O3-mini menunjukkan hasil bervariasi tergantung pengaturan level penalaran yang digunakan. Pada level rendah, model ini meraih skor AIME 60 persen. Skor meningkat menjadi 79,6 persen pada level menengah dan mencapai 87,3 persen pada level tinggi. Dalam tes pengetahuan umum dengan benchmark GPQA Diamond o3-mini juga menunjukkan pola serupa. O3-mini meraih 70,6 persen pada level rendah, 76,8 persen pada level menengah, dan 79,7 persen pada level tinggi.

Rating Codeforces o3-mini mencapai 1.831 pada level rendah, 2.036 pada level menengah, dan 2.130 pada level tinggi. Model ini juga mampu menyelesaikan 42 persen tugas pada benchmark SWE-bench yang menunjukkan kemampuan programming-nya. Model ini juga berhasil mengurangi kesalahan sebesar 39 persen pada pertanyaan kompleks.

Secara keseluruhan, o3-mini level tinggi mengungguli R1 di mayoritas benchmark seperti AIME untuk kemampuan matematika dan Codeforces untuk programming. Namun R1 tetap menunjukkan performa kompetitif yang mendekati atau bahkan melampaui o3-mini level menengah.
 

2. R1 lebih transparan dalam menampilkan proses berpikirnya

Editorial Team

EditorLeo Manik

Tonton lebih seru di