ilustrasi kecerdasan buatan (unsplash.com/Growtika)
xAI telah melakukan penelitiannya sendiri mengenai kemahiran Grok-1 LLM (model bahasa besar), dibandingkan dengan jaringan saraf lainnya di ruang chatbot AI.
Penelitian ini memperoleh kesimpulan bahwa Grok-1 LLM menempati posisi tertinggi ke-4 dalam 4 tolok ukur independen yang terpisah, meskipun hanya menjalani pelatihan selama dua bulan. Hal ini secara konsisten menempatkannya di atas versi gratis ChatGPT, yang menggunakan model GPT-3.5.
GSM8k merupakan yang pertama dari benchmark ini. Berdasarkan 'masalah matematika sekolah menengah', ini adalah tugas yang tampak sulit untuk bot natural language processing (NLP).
Itu karena jaringan saraf tidak menggunakan aritmatika komputasi murni seperti kalkulator. Sebaliknya, ia belajar dari contoh, menyimpulkan jawaban terhadap masalah baru berdasarkan pasangan input/output yang berhasil (persamaan/solusi dalam kasus).
Hal yang mengejutkan, jaringan saraf modern menjadi sangat baik meskipun terdapat inefisiensi mendasar dengan skor GPT-4 yang lebih dari 90 persen.
MMLU (Massive Multitask Language Understanding) adalah tes pilihan ganda. Meski mungkin mudah bagi AI, tapi MMLU bersifat multidisiplin dan menguji kemampuan AI untuk berhubungan dari satu bidang keahlian ke bidang keahlian lainnya.
Sementara HumanEval adalah tolok ukur yang berspesialisasi dalam kemahiran pemrograman. Ia menggunakan Python, bahasa pemrograman paling populer untuk membuat model AI tetapi melakukan ekstrapolasi dengan baik saat mengevaluasi kinerja untuk bahasa lain.
MATH adalah tes matematika. Tes ini jauh lebih sulit untuk sistem AI dibandingkan GSM8k, dengan nilai tertinggi diberikan kepada GPT-4 yang hanya sebesar 42,5 persen.