Google Rilis Gemini 3.1 Flash TTS, Suara AI-nya makin Natural

19 Apr 2026, 17:28 WIB

Gemini 3.1 Flash TTS hadir dengan suara AI yang lebih natural dan ekspresif (google.com)

Intinya Sih

Google resmi meluncurkan Gemini 3.1 Flash TTS dengan suara AI yang lebih natural, ekspresif, dan dapat dikontrol detail seperti gaya bicara, kecepatan, serta ekspresi.
Model ini menghadirkan fitur audio tag untuk mengatur nada, aksen, dan konteks percakapan secara presisi, memungkinkan hasil suara terdengar lebih hidup dan profesional.
Gemini 3.1 Flash TTS mendukung lebih dari 70 bahasa serta dilengkapi teknologi tanda air SynthID guna menjaga keamanan dan transparansi konten audio berbasis AI.

This section summary was AI-assisted and reviewed by our editorial team.

Secara resmi Google rilis Gemini 3.1 Flash TTS, model text-to-speech (TTS) terbaru dengan suara yang lebih natural, ekspresif, dan mudah dikontrol. Model ini diumumkan pada Rabu (15/4/2026) melalui blog resmi perusahaan. Lewat pembaruan ini, Google meningkatkan kemampuan AI dalam menghasilkan suara yang terdengar lebih hidup. Pengguna kini bisa mengatur gaya bicara, kecepatan, hingga ekspresi suara secara lebih detail.

Gemini 3.1 Flash TTS dirancang untuk berbagai kebutuhan, mulai dari pengembangan aplikasi, penggunaan di perusahaan, hingga integrasi ke layanan sehari-hari. Saat ini, model tersebut masih dalam tahap pratinjau. Pengembang sudah dapat mencobanya melalui API Gemini dan Google AI Studio. Sementara itu, perusahaan bisa mengaksesnya lewat Vertex AI, sedangkan pengguna Workspace dapat memanfaatkannya melalui Google Vids. Berikut penjelasan lengkap mengenai fitur dan keunggulan Gemini 3.1 Flash TTS.

1. Peningkatan kualitas dan kontrol suara

ilustrasi pengujian Artificial Analysis TTS (google.com)

Google meningkatkan kualitas suara pada Gemini 3.1 Flash TTS sehingga menghasilkan ucapan yang lebih natural dan ekspresif dibandingkan dengan versi sebelumnya. Selain itu, pengguna kini dapat mengatur kontrol kreatif menggunakan perintah berbasis bahasa alami, sehingga proses pembuatan audio menjadi lebih fleksibel. Pembaruan ini menghadirkan pengalaman yang lebih adaptif dan sesuai dengan kebutuhan pengguna.

Dalam pengujian Artificial Analysis TTS, model ini mencatat skor Elo sebesar 1.211 yang menunjukkan tingkat kepuasan pengguna yang tinggi terhadap kualitas audio yang dihasilkan. Selain unggul dari sisi kualitas, Gemini 3.1 Flash TTS juga dinilai efisien dari sisi biaya. Artificial Analysis menempatkannya dalam kategori kuadran paling menarik karena menggabungkan performa tinggi dengan biaya yang relatif rendah.

2. Tag audio baru untuk ucapan lebih ekspresif

ilustrasi demonstrasi Google Gemini 3.1 Flash TTS (google.com)

Salah satu fitur utama yang diperkenalkan adalah audio tag, yaitu sistem kontrol yang memungkinkan pengguna mengatur gaya bicara, kecepatan, hingga ekspresi suara secara lebih rinci. Melalui fitur ini, pengguna dapat menyisipkan perintah berbasis bahasa alami langsung ke dalam teks, sehingga hasil suara AI bisa disesuaikan secara lebih spesifik sesuai kebutuhan. Google juga menghadirkan sejumlah kontrol tambahan untuk memberi fleksibilitas lebih besar, di antaranya:

Pengarahan adegan untuk menentukan konteks percakapan
Pengaturan profil suara tiap karakter, termasuk nada dan aksen
Kemampuan ekspor konfigurasi ke API untuk menjaga konsistensi

Lewat kemampuan ini, pengembang dapat mengatur performa suara layaknya seorang sutradara, sehingga hasil audio terdengar lebih hidup, natural, dan ekspresif.

3. Dirancang untuk skala global

ilustrasi demonstrasi Google Gemini 3.1 Flash TTS (google.com)

Gemini 3.1 Flash TTS dikembangkan untuk mendukung penggunaan secara global. Google mengklaim model ini mampu menghasilkan suara berkualitas tinggi dalam lebih dari 70 bahasa. Optimalisasi yang dilakukan memungkinkan pengaturan gaya bicara, kecepatan, dan aksen lintas bahasa dengan tingkat presisi lebih tinggi.

Model ini juga ditujukan untuk membantu pengembang menghadirkan pengalaman audio yang lebih relevan di berbagai wilayah. Sejumlah pengembang dan perusahaan yang telah menjajal versi awal melaporkan hasil positif. Mereka menilai fitur kontrol yang tersedia mampu mengubah teks sederhana menjadi audio yang terdengar lebih natural dan profesional.

4. Dilengkapi tanda air SynthID

ilustrasi demonstrasi Google Gemini 3.1 Flash TTS (google.com)

Untuk menjaga keamanan dan transparansi, Google menyematkan teknologi tanda air SynthID pada setiap audio yang dihasilkan. Tanda air ini bersifat tidak terlihat dan terintegrasi langsung dalam file audio. Fungsinya adalah membantu mengidentifikasi konten yang dibuat oleh AI, sehingga dapat meminimalkan risiko penyalahgunaan, termasuk penyebaran informasi yang menyesatkan. Teknologi ini menjadi bagian dari komitmen Google dalam mengembangkan AI yang lebih bertanggung jawab.

Momen Google rilis Gemini 3.1 Flash TTS menandai lompatan baru dalam teknologi text-to-speech Google. Suara yang lebih realistis, kontrol ekspresi yang lebih fleksibel, serta dukungan multi-bahasa membuat model ini semakin kompetitif di tengah ketatnya persaingan AI voice.

This article is written by our community writers and has been carefully reviewed by our editorial team. We strive to provide the most accurate and reliable information, ensuring high standards of quality, credibility, and trustworthiness.