Mengenal DeepSeek v3, Model AI Open Source Raksasa dari China

Persaingan di kalangan perusahaan teknologi kecerdasan buatan (AI) kembali memanas dengan hadirnya DeepSeek v3. Model AI open source ini resmi dirilis pada Desember 2024 oleh perusahaan teknologi asal China, DeepSeek. DeepSeek v3 hadir sebagai penantang tangguh atas dominasi model-model besar tertutup seperti GPT-4o dari OpenAI dan Claude dari Anthropic.
DeepSeek v3 membawa sejumlah terobosan dalam dunia AI open source. Model ini memiliki total 671 miliar parameter, menjadikannya model AI open source terbesar yang pernah ada. Jumlah parameter tersebut bahkan 1,6 kali lebih besar dari Llama 3.1 yang memiliki 405 miliar parameter. Penasaran dengan model penantang dari China ini? Yuk baca artikel ini sampai habis!
1. Keunggulan DeepSeek v3 dibanding model lain
DeepSeek v3 menunjukkan performa ciamik dalam berbagai pengujian. Model ini berhasil mengungguli model-model open source lainnya seperti Llama 3.1 405B dan Qwen 2.5 72B dalam berbagai benchmark. DeepSeek v3 bahkan mampu melampaui performa GPT-4o dalam mayoritas pengujian. Melansir dari TechCrunch, model ini mampu menangani berbagai tugas berbasis teks seperti pemrograman, penerjemahan, penulisan esai, hingga pembuatan email.
Keunggulan model ini paling menonjol dalam pengujian matematika dan bahasa Mandarin. Pada tes Math-500, DeepSeek v3 meraih skor 90,2, jauh mengungguli model Qwen yang hanya mencapai skor 80. Model ini juga menunjukkan performa impresif dalam tes pemrograman kompetitif di platform Codeforces.
Model ini memiliki kemampuan memahami konteks yang sangat baik hingga 128 ribu token. Jumlah ini setara dengan kemampuan memproses sekitar 100 ribu kata dalam sekali eksekusi. Kemampuan ini memungkinkan model memahami dan menganalisis teks panjang seperti dokumen atau kode program secara lebih komprehensif.
Melansir VentureBeat, satu-satunya model yang mampu menandingi DeepSeek v3 adalah Claude 3.5 Sonnet dari Anthropic. Model Anthropic ini unggul dalam beberapa pengujian standar kemampuan AI seperti tes pengetahuan umum dan akademik (MMLU-Pro), dan tes pemrograman (SWE Verified). Namun, perbedaan terletak pada aksesibilitas, karena DeepSeek v3 tersedia secara open source.
2. Inovasi teknologi di balik DeepSeek v3

DeepSeek v3 menggunakan arsitektur canggih bernama Mixture-of-Experts (MoE). Sistem ini bekerja layaknya tim ahli yang berkolaborasi, di mana hanya 37 miliar parameter yang aktif saat memproses setiap token. Pendekatan ini membuat model lebih efisien dalam penggunaan sumber daya komputasi.
Tim pengembang DeepSeek memperkenalkan inovasi auxiliary loss-free load balancing dalam model ini. Teknologi ini membantu mengoptimalkan beban kerja antar "ahli" tanpa mengorbankan performa keseluruhan model. DeepSeek v3 juga mengadopsi teknik multi-token prediction yang memungkinkan model memprediksi beberapa token sekaligus.
Proses pelatihan model ini menggunakan 14,8 triliun token data berkualitas tinggi. Data ini mencakup berbagai jenis konten yang membantu model memahami berbagai konteks dan tugas. Pengembang juga menerapkan teknologi FP8 mixed precision training yang meningkatkan efisiensi proses pelatihan.
Model ini mewarisi kemampuan penalaran dari seri DeepSeekR1 melalui proses "penyaringan" pengetahuan. Proses ini memungkinkan DeepSeek v3 memiliki kemampuan penalaran yang kuat sambil mempertahankan gaya output dan panjang yang sesuai. Tim pengembang berhasil melatih DeepSeek v3 tanpa hambatan teknis seperti lonjakan performa yang tidak terkendali atau kebutuhan mengulang proses dari awal.
3. Pengembangan DeepSeek v3 tergolong sangat murah

Pencapaian tim DeepSeek dalam mengembangkan model ini patut diapresiasi. Mereka berhasil melatih model raksasa ini menggunakan pusat data GPU Nvidia H800 hanya dalam waktu dua bulan. Padahal, China baru-baru ini menghadapi pembatasan akses terhadap GPU tersebut dari Kementerian Perdagangan Amerika Serikat.
Proses pengembangan model ini hanya menghabiskan biaya sekitar 5,57 juta dolar AS (sekitar Rp90 miliar). Nominal ini dinilai jauh lebih rendah dibandingkan model-model besar lainnya. Sebagai perbandingan, pengembangan Llama 3.1 diperkirakan memakan biaya lebih dari 500 juta dolar AS (sekitar Rp8,1 triliun).
DeepSeek v3 kini tersedia melalui berbagai platform. Kode model ini dapat diakses di GitHub dengan lisensi MIT, sementara modelnya tersedia di platform Hugging Face. Pengguna juga dapat mencoba model ini melalui DeepSeek Chat, platform serupa ChatGPT yang dikembangkan perusahaan.
Para pengembang bisa mengakses API DeepSeek v3 untuk penggunaan komersial. Perusahaan menawarkan harga kompetitif sebesar 0,27 dolar AS (sekitar Rp4.300) per satu juta token input dan 1,10 dolar AS (sekitar Rp17.800) per satu juta token output. Harga khusus 0,07 dolar AS (sekitar Rp1.100) per satu juta token tersedia saat menggunakan fitur cache hits.
Melansir TestingCatalog, DeepSeek juga disebut sedang mengembangkan fitur menarik bernama Deep Roles. Fitur ini nantinya memungkinkan pengguna mengeksplorasi atau membuat "peran" kustom dalam bahasa Inggris dan Mandarin. Fitur ini diprediksi akan mirip seperti Custom GPTs dari OpenAI. Perkembangan model AI open source seperti DeepSeek v3 tidak kalah menarik untuk diikuti. Kedepannya, bukan tidak mungkin jurang antara model terbuka dan tertutup akan semakin menyempit.