xAI Rilis Grok 3, Elon Musk: AI Tercerdas di Bumi!

- xAI meluncurkan Grok 3, AI terbaru yang mengalahkan GPT-4o dan Gemini dalam berbagai pengujian.
- Grok 3 memiliki dua varian: standar dan mini, dengan performa unggul dalam MMLU-pro, GPQA, Chatbot Arena, dan ujian matematika AIME 2024.
- Grok 3 memiliki jendela konteks hingga 1 juta token, kemampuan bernalar melalui mode "Think" dan "Big Brain", serta akan hadir dengan fitur voice mode.
xAI, perusahaan kecerdasan buatan milik Elon Musk, baru saja meluncurkan model kecerdasan buatan (AI) terbarunya bernama Grok 3. Model ini diklaim memiliki kekuatan komputasi 10 kali lipat dibandingkan pendahulunya dan berhasil melampaui performa GPT-4o serta Gemini dalam berbagai pengujian. Peluncuran ini terjadi beberapa hari setelah gagalnya tawaran Musk senilai 97,4 miliar dolar AS (Rp1.591 triliun) untuk mengakuisisi OpenAI.
xAI telah menggelontorkan investasi besar-besaran untuk Grok 3. Perusahaan ini membangun pusat data baru di Memphis, Amerika Serikat, yang dilengkapi 200 ribu unit GPU untuk melatih model ini. Elon Musk bahkan mengklaim Grok 3 sebagai AI tercerdas di dunia. Grok disebut dirancang untuk selalu berani menyampaikan kebenaran walau bertentangan dengan pandangan umum. Tidak heran kalau Grok memang dikenal memiliki kepribadian yang lebih nyentrik dan blak-blakan dibandingkan AI lain.
Lantas, seberapa tangguh sebenarnya performa Grok 3 ini? Berikut penjelasannya!
1. Keunggulan Grok 3 dibandingkan model AI lain
xAI meluncurkan Grok 3 dalam dua varian utama. Varian pertama adalah Grok 3 standar yang menjadi model unggulan dengan kemampuan paling lengkap. Varian kedua adalah Grok 3 mini yang dirancang memberikan respons lebih cepat meski dengan sedikit pengurangan akurasi.
Kedua varian Grok 3 menunjukkan performa mengagumkan dalam berbagai pengujian. Melansir dari blog xAI, Grok 3 standar berhasil mengalahkan GPT-4o dalam benchmark MMLU-pro (Massive Multitask Language Understanding) dengan skor 79,9 persen dibanding 72,6 persen. MMLU-pro merupakan pengujian yang menilai pemahaman dan penalaran model AI dalam 57 bidang berbeda seperti sains, sejarah, dan ilmu sosial melalui 10 ribu soal pilihan ganda dari tingkat sekolah menengah hingga PhD.
Model ini juga unggul dari Gemini 2.0 Pro dalam benchmark GPQA (General Purpose Question Answering) dengan skor 75,4 persen dibanding 64,7 persen. GPQA menguji kemampuan model dalam menjawab pertanyaan ilmiah yang membutuhkan penalaran mendalam dan pemahaman berbagai bidang sains. Sementara itu, Grok 3 mini tetap mempertahankan performa kompetitif dengan skor 78,9 persen di MMLU-pro dan 66,2 persen di GPQA.
Keunggulan Grok 3 juga terbukti di platform Chatbot Arena. Platform ini melakukan pengujian buta di mana pengguna membandingkan dan memilih respons terbaik dari berbagai model AI tanpa mengetahui identitasnya. Grok 3 meraih skor Elo 1402, mengalahkan GPT-4, Gemini, dan Claude dalam hal kualitas respons serta kemampuan memahami konteks.
Kedua varian Grok 3 juga mengungguli kompetitor dalam ujian matematika AIME 2024. Grok 3 standar meraih skor 52,2 persen, jauh di atas GPT-4o yang hanya mendapat 9,3 persen dan Claude 3.5 Sonnet dengan 16 persen. Grok 3 mini tidak kalah impresif dengan skor 39,7 persen, tetap lebih tinggi dari model-model unggulan lainnya.
Spesifikasi teknis Grok 3 menunjukkan lompatan besar dari model sebelumnya. Model ini memiliki jendela konteks hingga 1 juta token. Kapasitas ini delapan kali lebih besar dari generasi sebelumnya, Grok 2. Artinya, Grok 3 dapat memproses dokumen yang sangat panjang dan menangani prompt kompleks.
2. Grok 3 memiliki dua mode penalaran
Grok 3 juga hadir dengan kemampuan bernalar (reasoning) melalui dua mode khusus. Mode "Think" memungkinkan model berpikir selama beberapa detik hingga menit untuk menganalisis masalah secara lebih mendalam. Mode "Big Brain" menyediakan daya komputasi lebih besar untuk tugas yang sangat kompleks. Kedua mode ini memanfaatkan teknologi reinforcement learning (RL) skala besar dalam pengembangannya.
Kemampuan bernalar Grok 3 juga diuji dalam berbagai benchmark. Dalam ujian matematika AIME 2025, Grok 3 dengan mode Think mencapai skor 93,3 persen, jauh melampaui DeepSeek-R1 (70 persen), o3-mini (86,5 persen) dan Gemini 2.0 Flash Thinking (53,5 persen). Mode Think pada Grok 3 mini juga menunjukkan performa impresif dengan skor 90,8 persen dalam ujian yang sama.
Mode penalaran ini juga diuji dalam benchmark LiveCodeBench versi 5, untuk kemampuan pemrograman dan pemecahan masalah. Grok 3 Think meraih skor 79,4 persen, mengalahkan Deepseek-R1-Preview (64,3 persen) dan Gemini 2.0 Flash Thinking (45,8 persen). Menarinya, Grok 3 mini Think bahkan sedikit lebih unggul dengan skor 80,4 persen.
Mode reasoning Grok 3 juga menonjol dalam tugas ilmiah tingkat lanjut. Mode Think berhasil meraih skor 84,6 persen dalam benchmark GPQA, sementara Grok 3 mini Think mencapai 84 persen. Pencapaian ini mengungguli DeepSeek-R1 (71,5 persen) dan Gemini 2.0 Flash Thinking (74,2 persen).
xAI juga meluncurkan DeepSearch, sebuah AI agent yang memanfaatkan kemampuan penalaran Grok 3. Agent ini mampu mencari informasi di internet, menganalisis berbagai sumber, dan menghasilkan laporan komprehensif. DeepSearch saat ini tersedia eksklusif untuk pengguna X Premium+ dan akan segera hadir untuk pelanggan korporat melalui API.
3. Grok 3 dapat diakses pelanggan X Premium+
Saat ini, xAI menawarkan dua opsi berlangganan untuk mengakses Grok 3. Opsi pertama melalui X Premium+ seharga 40 dolar AS (sekitar Rp653 ribu) per bulan yang memberikan akses awal ke berbagai fitur Grok 3. Opsi kedua adalah paket SuperGrok seharga 30 dolar AS (sekitar Rp490 ribu) per bulan. Kedua opsi ini menawarkan akses ke fitur penalaran dan kuota lebih banyak untuk penggunaan DeepSearch dan pembuatan gambar. Namun, saat ini xAI juga memberi akses Grok-3 gratis secara terbatas.
xAI merencanakan beberapa pengembangan menarik dalam waktu dekat. Salah satunya adalah fitur voice mode yang akan memungkinkan pengguna berinteraksi dengan Grok 3 melalui suara. Melansir The Verge, fitur ini akan menggunakan teknologi sintesis suara untuk memberikan pengalaman percakapan yang lebih natural.
Mengutip pernyataan Musk dalam presentasi livestream-nya, xAI berkomitmen membuka akses teknologi AI mereka lebih luas. Mereka berencana merilis Grok 2 sebagai open source setelah peforma Grok 3 stabil. Sebelumnya, xAI juga telah merilis Grok-1 secara open source, dilansir TechCrunch.
Meski tergolong pemain baru ketimbang kompetitornya, Grok 3 tidak bisa dipandang sebelah mata. Tim xAI menuai pujian karena berhasil mengembangkan Grok hingga menyaingi kompetitornya dalam waktu yang relatif sangat cepat. Masa depan Grok juga sangat menjanjikan kerena xAI memiliki modal ratusan ribu GPU canggih untuk melatih model AI yang bahkan lebih powerful lagi.