O3-mini OpenAI vs DeepSeek R1, Siapa yang Lebih Cerdas?

OpenAI baru-baru ini merilis o3-mini, model AI penalaran (reasoning model) terbarunya. Model ini muncul setelah kesuksesan DeepSeek R1 yang berhasil menjadi nomor satu di Apple App Store AS. DeepSeek R1 telah menarik perhatian banyak pihak karena kemampuan bernalarnya yang setara dengan model o1 milik OpenAI.
O3-mini hadir sebagai penerus dari o1, model penalaran pertama OpenAI yang dirilis September 2024. Model AI penalaran memiliki keunikan karena membutuhkan waktu lebih lama dalam memproses informasi. Mereka akan memeriksa fakta secara bertahap sebelum memberikan jawaban. Akibatnya, respon yang dihasilkan lebih akurat walau memerlukan waktu beberapa detik hingga menit lebih lama. Mari bandingkan kedua model AI penalaran ini secara mendalam.
1. Perbandingan performa di berbagai benchmark
Melansir VentureBeat, DeepSeek R1 berhasil meraih skor 79,8 persen pada tes matematika AIME 2024. Model ini juga mencapai akurasi 97,3 persen pada MATH-500. Rating Codeforces R1 mencapai 2.029, mengungguli 96,3 persen programmer manusia. Pengetahuan umum R1 juga terbilang baik dengan skor 90,8 persen pada benchmark MMLU.
O3-mini menunjukkan hasil bervariasi tergantung pengaturan level penalaran yang digunakan. Pada level rendah, model ini meraih skor AIME 60 persen. Skor meningkat menjadi 79,6 persen pada level menengah dan mencapai 87,3 persen pada level tinggi. Dalam tes pengetahuan umum dengan benchmark GPQA Diamond o3-mini juga menunjukkan pola serupa. O3-mini meraih 70,6 persen pada level rendah, 76,8 persen pada level menengah, dan 79,7 persen pada level tinggi.
Rating Codeforces o3-mini mencapai 1.831 pada level rendah, 2.036 pada level menengah, dan 2.130 pada level tinggi. Model ini juga mampu menyelesaikan 42 persen tugas pada benchmark SWE-bench yang menunjukkan kemampuan programming-nya. Model ini juga berhasil mengurangi kesalahan sebesar 39 persen pada pertanyaan kompleks.
Secara keseluruhan, o3-mini level tinggi mengungguli R1 di mayoritas benchmark seperti AIME untuk kemampuan matematika dan Codeforces untuk programming. Namun R1 tetap menunjukkan performa kompetitif yang mendekati atau bahkan melampaui o3-mini level menengah.
2. R1 lebih transparan dalam menampilkan proses berpikirnya

DeepSeek R1 dikenal lebih transparan dalam menunjukkan proses berpikirnya. Menurut TechCrunch, model ini mengungkapkan seluruh langkah penalarannya secara detail. Pendekatan ini dinilai lebih baik karena memudahkan pengguna memahami bagaimana model sampai pada suatu kesimpulan.
OpenAI awalnya memilih menyembunyikan sebagian besar proses berpikir o3-mini. Mereka hanya menampilkan ringkasan langkah penalaran yang kadang mengandung kesalahan. Kebijakan ini diambil sebagian karena alasan kompetitif. OpenAI khawatir transparansi penuh akan memudahkan kompetitor meniru modelnya.
OpenAI akhirnya meningkatkan transparansi o3-mini, namun masih belum selengkap R1. Pengguna ChatGPT kini bisa melihat ringkasan proses berpikir yang lebih detail dalam bahasa pilihan mereka. OpenAI masih menyaring dan menyederhanakan langkah-langkah penalaran sebelum ditampilkan ke pengguna. Sederhananya, R1 menunjukkan seluruh proses berpikirnya secara mentah, sementara o3-mini hanya membagikan versi yang telah disederhanakan.
3. Perbandingan jendela konteks dan kemampuan multimodal
O3-mini memiliki jendela konteks 200 ribu token, lebih besar dari R1 yang hanya 128 ribu token. Jendela konteks menentukan berapa banyak teks yang bisa diproses model dalam satu interaksi. Semakin besar nilainya, semakin panjang teks yang bisa dianalisis sekaligus.
R1 unggul dalam hal penanganan file. Model ini mampu membaca dan menganalisis dokumen yang diunggah pengguna. O3-mini belum memiliki kemampuan serupa. Kedua model juga masih memiliki keterbatasan dalam hal kemampuan multimodal. Mereka belum bisa memproses input berupa gambar.
Keduanya sudah memiliki kemampuan browsing internet. Mereka bisa menggabungkan kemampuan bernalar dengan informasi terkini dari web. O3-mini menawarkan fleksibilitas bagi pengguna untuk memilih tiga level penalaran. Level rendah memberikan respon cepat, level menengah menyeimbangkan kecepatan dan akurasi, sementara level tinggi mengutamakan akurasi maksimal namun lebih lama dalam berpikir.
4. Perbandingan ketersediaan platform dan aksesibilitas

O3-mini tersedia di semua tingkatan layanan ChatGPT, termasuk versi gratis. Pengguna ChatGPT Plus mendapat jatah 150 pesan o3-mini per hari. Model ini segera hadir di ChatGPT Enterprise dan Education. Pengembang juga bisa mengakses o3-mini melalui Chat Completions API, Assistants API dan Batch API.
R1 bisa diakses gratis melalui platform DeepSeek dengan batasan 50 pesan per hari. Model ini belum memiliki opsi langganan berbayar untuk konsumen. Berbeda dengan o3-mini, R1 dirilis sebagai open source dengan lisensi MIT. Status ini memungkinkan siapa saja mengunduh, memodifikasi, dan menjalankan model secara lokal.
Microsoft dan Amazon telah menambahkan varian R1 ke platform cloud mereka. Perplexity, perusahaan pencarian AI, juga mengintegrasikan model ini ke layanannya. Namun, beberapa pihak khawatir akan keamanan data DeepSeek karena perusahaan ini berbasis di China.
5. Biaya API DeepSeek R1 lebih murah dari o3-mini

R1 menawarkan biaya API yang jauh lebih terjangkau. Pengguna API hanya perlu membayar 0,55 dolar AS (sekitar Rp8.900) per satu juta token input dan 2,19 dolar AS (sekitar Rp35 ribu) per satu juta token output. O3-mini mematok tarif lebih tinggi yaitu 1,1 dolar AS (sekitar Rp17.900) per satu juta token input dan 4,4 dolar AS (sekitar Rp71 ribu) per satu juta token output.
R1 mungkin lebih murah tapi belum memiliki ekosistem selengkap o3-mini. Selain kekhawatiran terkait keamanan, beberapa pihak juga mengeluhkan kebijakan sensor DeepSeek. Model AI mereka akan menolak menjawab berbagai pertanyaan sensitif terkait pemerintah China, seperti peristiwa Tiananmen dan otonomi Taiwan. Namun kembali lagi, statusnya sebagai open source membuat R1 menjadi pilihan yang sangat menarik bagi konsumen.
Persaingan model AI penalaran masih akan terus memanas. DeepSeek R1 mengungguli o3-mini dalam hal biaya dan transparansi. O3-mini menonjol di benchmark performa dan ekosistemnya yang lebih matang. Google juga mulai meramaikan kompetisi di niche ini melalui Gemini 2 Flash Thinking. Perusahaan-perusahaan ini terus berlomba meningkatkan kecerdasan model AI mereka sambil menekan biaya serendah mungkin.