Google Gemini Omni Bisa Ubah Teks, Audio, dan Gambar Jadi Video

- Google memperkenalkan Gemini Omni di Google I/O 2026, model AI multimodal yang bisa mengubah teks, gambar, audio, dan klip video menjadi video baru secara otomatis dan natural.
- Gemini Omni memungkinkan pembuatan avatar digital dengan verifikasi wajah untuk mencegah penyalahgunaan, serta menyematkan watermark SynthID pada setiap video hasil AI.
- Model pertama, Gemini Omni Flash, diluncurkan di aplikasi Gemini dan YouTube Shorts dengan kemampuan membuat video hingga 10 detik sebagai langkah awal sebelum versi durasi panjang hadir.
Google memperkenalkan AI terbaru bernama Gemini Omni dalam ajang Google I/O 2026. Model AI ini memungkinkan pengguna membuat video hanya dari kombinasi teks, audio, gambar, hingga klip video. Gemini Omni menjadi pengembangan terbaru Google di bidang AI multimodal, yakni sistem yang mampu memahami sekaligus menghasilkan berbagai format media dalam satu platform. Google sendiri sudah lebih dulu menghadirkan Gemini yang dapat memproses teks, gambar, audio, dan video secara bersamaan.
CEO Google, Sundar Pichai, mengatakan Gemini Omni dirancang untuk mampu “menciptakan apa pun dari input apa pun.” Menurut Pichai, perkembangan AI kini tidak lagi sekadar menghasilkan teks, tetapi mulai memahami dan mensimulasikan dunia nyata melalui berbagai jenis media.
1. Bisa gabungkan teks, audio, dan gambar jadi video
Pada tahap awal, Gemini Omni difokuskan untuk membuat video berbasis AI. Pengguna bisa menggabungkan teks, gambar, audio, hingga potongan video untuk menghasilkan video baru secara otomatis. Berbeda dari aplikasi editing biasa, Gemini Omni tidak hanya menggabungkan beberapa elemen media. AI ini disebut mampu memahami isi dari seluruh input yang diberikan sehingga hasil videonya terlihat lebih natural dan konsisten.
Google juga menghadirkan fitur editing foto menggunakan perintah teks sederhana. Pengguna tak perlu lagi memakai software editing yang rumit untuk mengubah gambar maupun video. Sebelumnya, Google telah memiliki model video AI bernama Veo yang dapat mengubah teks dan gambar menjadi video.
Namun, Direktur Manajemen Produk Google DeepMind, Nicole Brichtova, menyebut Gemini Omni bukan sekadar pembaruan dari Veo. “Ini adalah langkah selanjutnya menuju penggabungan kecerdasan Gemini dengan kemampuan rendering model media kami,” ujar Brichtova dikutip dari blog Google, Rabu (20/5/2026). Dalam salah satu demo, Gemini Omni diberi perintah membuat “animasi tanah liat tentang pelipatan protein”. Tak butuh waktu lama, AI tersebut langsung menghasilkan video animasi stop-motion lengkap dengan narasi suara otomatis.
2. Bisa buat avatar digital sendiri

Selain membuat video AI, Gemini Omni juga bisa dipakai untuk membuat avatar digital sendiri. Fitur ini mirip teknologi avatar AI yang sebelumnya dipopulerkan OpenAI lewat layanan Cameos di Sora. Untuk mencegah penyalahgunaan seperti deepfake, Google menerapkan proses verifikasi sebelum pengguna membuat avatar digital. Pengguna diminta merekam wajah sambil mengucapkan sejumlah angka agar sistem dapat memverifikasi identitas mereka.
Avatar tersebut nantinya bisa digunakan kembali untuk membuat berbagai video personal secara otomatis. Selain itu, seluruh video yang dibuat menggunakan Gemini Omni akan diberi watermark digital SynthID. Teknologi ini membantu pengguna mengetahui apakah sebuah video dibuat menggunakan AI Gemini atau bukan.
3. Gemini Omni Flash mulai diluncurkan

Model pertama yang diperkenalkan Google adalah Gemini Omni Flash. Teknologi ini mulai tersedia lewat aplikasi Gemini, YouTube Shorts, dan studio kreatif AI Flow. Pada tahap awal, Gemini Omni Flash mampu menghasilkan video berdurasi hingga 10 detik. Google menyebut batasan tersebut bukan karena kendala teknologi, melainkan strategi agar lebih banyak pengguna bisa mencoba fitur ini lebih cepat.
Google juga mengungkapkan dukungan video berdurasi lebih panjang saat ini tengah dikembangkan. Dalam presentasinya, Google memperlihatkan sejumlah contoh penggunaan Gemini Omni Flash untuk kebutuhan sehari-hari. Mulai dari membuat video saat menerima penghargaan, pergi ke bulan, hingga menghapus orang yang lewat di latar belakang video liburan.
Insinyur riset Google DeepMind, Gabe Barth-Maron, menyebut pengalaman tersebut sebagai “meme yang dipersonalisasi”. Meski begitu, Google mengingatkan pengguna tetap perlu memberikan instruksi yang spesifik saat melakukan editing. Jika perintah terlalu umum, AI berisiko mengubah bagian yang sebenarnya ingin dipertahankan pengguna.
Lewat Gemini Omni, Google menunjukkan arah baru perkembangan AI generatif yang kini semakin terintegrasi dengan berbagai format media. Kehadiran teknologi ini juga menandai persaingan AI video generatif yang semakin ketat.


















