5 Fakta Menarik o3 dari OpenAI, Calon Model AI Tercerdas Sedunia?

- OpenAI memperkenalkan model kecerdasan buatan terbarunya, o3 dan o3-mini, yang mampu memverifikasi fakta secara mandiri.
- O3 menggunakan teknologi "private chain of thought" dan sistem "deliberative alignment" untuk meningkatkan keamanan serta kemampuan verifikasi fakta mandiri yang lebih baik.
- O3 menunjukkan keunggulan luar biasa dalam berbagai tes, namun masih memiliki keterbatasan waktu penalaran, biaya komputasi tinggi, dan belum bisa disebut sebagai AGI sejati.
OpenAI memperkenalkan model kecerdasan buatan (AI) terbarunya bernama o3 dan o3-mini pada event 12 Days of OpenAI. Model ini merupakan penerus dari o1 yang dirilis September 2024. o3 merupakan model reasoning atau penalaran yang mampu memverifikasi fakta secara mandiri.
OpenAI melompati nama o2 dan memilih o3 karena alasan merek dagang dengan perusahaan telekomunikasi O2 dari Inggris. Melalui siaran langsung, CEO OpenAI Sam Altman menunjukkan berbagai kemampuan luar biasa dari o3. Model ini bahkan mampu melibas pesaingnya dengan margin besar dalam salah satu benchmark. Mari simak lima fakta menarik tentang o3 berikut ini!
1. O3 adalah model AI dengan kemampuan penalaran
Melansir TechCrunh, o3 menggunakan teknologi private chain of thought yang memungkinkannya berpikir lebih dalam sebelum memberikan respons. Model ini akan mempertimbangkan berbagai aspek terkait dan menjelaskan alasan di balik jawabannya. o3 melakukan serangkaian tindakan dalam periode tertentu untuk menemukan solusi terbaik.
o3 juga menerapkan sistem deliberative alignment untuk meningkatkan keamanan. Sistem ini memastikan model tetap sejalan dengan prinsip-prinsip keselamatan OpenAI. Melansir The Verge, sistem penalaran ini membuat o3 mampu memecah instruksi menjadi tugas-tugas kecil yang menghasilkan jawaban terbaik.
o3 juga memiliki kemampuan verifikasi fakta mandiri yang lebih baik dibanding model AI lainnya. Kemampuan ini membantu o3 menghindari kesalahan umum yang sering terjadi pada model-model AI. Hasil verifikasi mandiri ini membuat jawaban o3 lebih dapat diandalkan, terutama di bidang fisika, sains, dan matematika.
2. o3 superior dalam sains, matematika, dan pemrograman
Melansir VentureBeat, o3 menunjukkan keunggulan luar biasa dalam berbagai tes. Model ini meraih skor 96,7 persen pada ujian American Invitational Mathematics Examination (AIME) 2024. o3 hanya salah menjawab satu soal dalam ujian matematika bergengsi tersebut.
o3 mencapai rating 2727 di platform pemrograman kompetitif Codeforces. Rating ini menempatkan o3 di peringkat 99,2 persentil, bahkan mengalahkan skor Kepala Peneliti OpenAI yang berada di angka 2665. o3 juga unggul 22,8 persen dari o1 dalam tes pemrograman SWE-Bench Verified.
Dalam tes GPQA Diamond yang berisi soal-soal biologi, fisika, dan kimia tingkat pascasarjana, o3 meraih skor 87,7 persen. o3 juga memecahkan rekor baru di EpochAI Frontier Math. Benchmark ini menguji kemampuan pemecahan masalah matematika tingkat lanjut. Dalam tes ini, o3 dapat menyelesaikan 25,2 persen soal. Sebagai perbandingan, model AI lain hanya mampu memecahkan maksimal 2 persen soal di tes tersebut.
Sementara itu, o3-mini adalah versi ringkas dari o3 yang dirancang lebih cepat dan lebih ringan. Meski berukuran lebih kecil, o3-mini tetap menunjukkan peningkatan signifikan dibanding pendahulunya o1-mini. o3-mini sendiri sanggup meraih skor 83,6 persen dalam tes AIME.
3. o3 belum bisa disebut AGI
Mengingat kemampuannya sangat memukau diatas kertas, muncul pertanyaan menarik. Apakah o3 bisa disebut sebagai AGI?
Definisi AGI atau Artificial General Intelligence sendiri masih menjadi perdebatan. Namun, OpenAI memiliki definisi khusus untuk AGI, yaitu sistem otonom yang kinerjanya melampaui manusia dalam sebagian besar pekerjaan bernilai ekonomi. AGI menjadi target yang ingin dicapai berbagai perusahaan AI.
O3 meraih skor 87,5 persen pada tes ARC-AGI dengan pengaturan komputasi tinggi. ARC-AGI merupakan tes yang mengevaluasi kemampuan model AI dalam memeroleh keterampilan baru di luar data pelatihannya. Skor ini tiga kali lipat lebih tinggi dibanding model sebelumnya, o1.
François Chollet, pembuat tes ARC-AGI, menyatakan o3 masih belum bisa disebut sebagai AGI sejati. o3 gagal mengerjakan tugas-tugas sangat mudah yang bisa dikerjakan manusia biasa. Data awal menunjukkan skor o3 akan turun di bawah 30 persen pada versi benchmark ARC-AGI berikutnya. Sementara itu, manusia cerdas masih mampu meraih skor di atas 95 persen tanpa pelatihan khusus.
Chollet menambahkan, AGI sejati akan hadir ketika perbedaan kemampuan antara manusia dan AI menghilang. Saat ini masih mudah membuat tugas yang gampang bagi manusia tetapi sulit bagi AI. Hal ini menunjukkan o3 masih memiliki keterbatasan dibanding kecerdasan manusia yang lebih fleksibel dan adaptif.
4. o3 butuh sumber daya besar

O3 memerlukan waktu lebih lama untuk memberikan jawaban dibanding model AI biasa. Proses penalaran o3 bisa memakan waktu dari hitungan detik hingga menit. Waktu tambahan ini diperlukan agar o3 dapat memverifikasi fakta dan memberikan jawaban lebih akurat.
Biaya komputasi o3 sangat tinggi, bisa mencapai ratusan juta rupiah per tugas pada pengaturan komputasi tinggi. o3 memiliki tiga tingkat pengaturan waktu komputasi, yaitu rendah, sedang, dan tinggi. Makin tinggi pengaturan komputasi, makin baik performa o3 dalam mengerjakan tugas. Meski membutuhkan sumber daya besar, kemampuan penalaran o3 membuat tingkat kesalahan dan halusinasinya lebih rendah. o3 menjadi lebih bisa diandalkan dalam tugas-tugas sulit.
5. o3 masih dalam masa pengujian keamanan

OpenAI membuka pendaftaran bagi peneliti untuk menguji o3 dan o3-mini hingga 10 Januari 2025. Para peneliti terpilih akan mendapat akses awal ke model ini sebelum dirilis ke publik. O3-mini direncanakan rilis pada akhir Januari 2025, sementara o3 akan menyusul setelahnya.
Pengujian keamanan ini penting mengingat temuan pada model o1. Tim penguji keamanan menemukan kemampuan penalaran o1 membuatnya lebih sering berusaha mencoba menipu pengguna dibanding model AI lainnya. OpenAI ingin memastikan o3 aman sebelum dirilis ke publik.
Persaingan model AI dengan kemampuan penalaran makin sengit. Google baru saja merilis Gemini 2.0 Flash Thinking sehari sebelum pengumuman o3. DeepSeek dan Alibaba juga telah merilis model penalaran mereka pada November 2024. Tren ini sepertinya akan terus berlanjut sepanjang 2025.