Baca artikel IDN Times lainnya di IDN App
For
You

Fakta AI OmniHuman-1, Bikin Foto Jadi Video yang Realistis

ilustrasi AI video generator (freepik.com/creativeart)
ilustrasi AI video generator (freepik.com/creativeart)
Intinya sih...
  • OmniHuman-1 dapat mengubah foto menjadi video realistis dengan tambahan sinyal gerakan seperti audio atau video
  • Teknologi ini mendukung berbagai jenis input dan pendekatannya multimodal, menghasilkan animasi yang lebih alami
  • OmniHuman-1 bisa digunakan untuk menghidupkan karakter kartun, hewan, objek buatan, dan memiliki fleksibilitas dalam menghasilkan video berkualitas tinggi

Teknologi AI saat ini makin berkembang dengan pesat. Salah satu inovasi terbaru yang mencuri perhatian adalah OmniHuman-1 dari ByteDance. Menggabungkan berbagai jenis input seperti gambar dan audio, model AI ini bisa menghasilkan video manusia yang sangat realistis hanya dari satu foto.

Bayangkan saja, hanya dengan menggunakan gambar dan sedikit sinyal gerakan, seperti audio atau video, OmniHuman-1 bisa mengubahnya menjadi video yang terlihat nyata, mulai dari gerakan tubuh hingga ekspresi wajah yang sesuai dengan situasi yang ada dalam gambar tersebut. Mari bahas sederet fakta dan keunggulan dari OmniHuman-1 ini, yuk!

1. Bisa menghidupkan foto dengan teknologi canggih

OmniHuman-1 adalah terobosan teknologi dari ByteDance yang dapat mengubah foto menjadi video realistis hanya dengan tambahan sinyal gerakan, seperti audio atau video. Menurut Forbes dan Beijing Times, model ini dilatih menggunakan lebih dari 18.700–19.000 jam data video manusia. Tapi, ByteDance menegaskan bahwa data tersebut bukan berasal dari produk mereka seperti TikTok. Laman resmi proyek tersebut juga mengungkapkan bahwa OmniHuman-1 secara signifikan melampaui metode yang ada.

Selain itu, teknologi ini juga mendukung berbagai jenis input, mulai dari foto potret, setengah badan, hingga gambar seluruh tubuh untuk tetap menghasilkan video dengan kualitas tinggi. Salah satu contoh menarik dari teknologi ini adalah video yang menampilkan Albert Einstein seolah hidup kembali dan memberikan pidato di depan papan tulis. Freddy Tran Nager, seorang profesor komunikasi di USC, menyebut bahwa hasil video tersebut sangat mengesankan.

"Jika Anda berpikir untuk menghidupkan kembali Humphrey Bogart dan mengikutsertakannya dalam sebuah film, saya tidak yakin bagaimana hasilnya. Tetapi, pada layar kecil, terutama pada smartphone, (teknologi) ini sangat mengesankan," ungkap Freddy Tran Nager, seorang profesor klinis komunikasi di Annenberg School for Communication and Journalism di University of Southern California, sebagaimana melansir Forbes.

2. Multimodal: Menggabungkan gambar, audio, dan pose

arxiv.org
arxiv.org

Keunggulan lain dari OmniHuman-1 adalah pendekatannya yang multimodal. Teknologi ini tidak hanya mengandalkan satu jenis input, tetapi menggabungkan gambar, audio, dan gerakan tubuh untuk menghasilkan animasi yang lebih alami. Menurut Analytics Vidhya, OmniHuman-1 menggunakan arsitektur Diffusion Transformer yang memungkinkan integrasi berbagai jenis sinyal, seperti teks, audio, dan gerakan tubuh. Berbekal pendekatan ini, hasil yang dihasilkan jauh lebih realistis dibandingkan dengan model-model sebelumnya yang biasanya hanya menggunakan satu jenis input saja.

Dilansir Forbes, Samantha G. Wolfe, seorang asisten profesor di NYU's Steinhardt School of Culture, Education and Human Development dan pendiri PitchFWD, sebuah konsultan pemasaran teknologi mengatakan, "Menciptakan sesuatu hanya dari sebuah gambar dan membuatnya terlihat seperti benar-benar berbicara dan benar-benar bergerak adalah hal yang menarik dari sudut pandang teknologi. Namun, hal ini juga dapat menimbulkan banyak konsekuensi negatif."

"Versi pura-pura dari pemimpin bisnis atau pemimpin politik yang mengatakan sesuatu yang tidak akurat dapat memiliki pengaruh besar pada bisnis, atau pengaruh besar pada suatu negara," tambahnya.

Dari sini, Wolfe juga tetap mengingatkan kepada pengguna akan potensi risiko, seperti penyalahgunaan teknologi untuk membuat deepfake yang sangat meyakinkan. Meski begitu, ByteDance telah berjanji untuk menyertakan fitur pengamanan, seperti watermarking dan transparansi. Hal ini ditujukan supaya konten yang dihasilkan jelas diketahui sebagai hasil dari AI jika teknologi ini dirilis untuk publik.

3. Kemampuan animasi yang luas, bukan hanya untuk manusia

OmniHuman-1 bukan hanya alat untuk menganimasikan objek manusia, tetapi juga bisa digunakan untuk menghidupkan karakter kartun, hewan, bahkan objek buatan. Teknologi ini mendukung berbagai aplikasi kreatif, seperti pembuatan film animasi atau game interaktif. Misalnya, kamu bisa membuat karakter kartun favorit bernyanyi atau bergerak sesuai dengan audio yang diberikan.

Selain itu, OmniHuman-1 juga bisa menghasilkan video dengan durasi tak terbatas. Namun, versi demonstrasi yang tersedia berkisar antara 5 hingga 25 detik. Teknologi ini menggunakan dua langkah proses. Pertama ia memampatkan data gerakan dari berbagai input, kemudian ia membandingkannya dengan rekaman nyata untuk penyempurnaan. Hasilnya, videonya terlihat sangat natural, mulai dari gerakan bibir hingga ekspresi wajah.

4. Kecepatan dan fleksibilitas dalam pembuatan konten

ilustrasi animasi karakter virtual yang dibuat di TikTok sebagai pengganti facecam (freepik.com/upklyak)
ilustrasi animasi karakter virtual yang dibuat di TikTok sebagai pengganti facecam (freepik.com/upklyak)

OmniHuman-1 memiliki keunggulan dalam segi fleksibilitasnya dalam menghasilkan video. Teknologi ini mampu menghasilkan video berkualitas tinggi dengan durasi 5–25 detik meski potensinya untuk menghasilkan video panjang terbatas oleh kapasitas memori sistem. Ini membuatnya ideal untuk berbagai kebutuhan, mulai dari konten pendidikan hingga hiburan. OmniHuman-1 tentu saja juga bisa digunakan oleh para pembuat konten TikTok untuk mengurangi kelelahan dengan membuat avatar virtual mereka sendiri.

Contoh penggunaannya, kamu bisa memilih Marilyn Monroe untuk mengajar statistik atau Kermit the Frog untuk menjelaskan konsep-konsep rumit. Lewat kemampuan ini, OmniHuman-1 tidak hanya mempermudah proses produksi konten, tetapi juga membuka peluang baru untuk inovasi dalam bidang pendidikan dan hiburan. Dunia kreator konten saat ini pun lebih maju lagi dari sebelumnya berkat adanya AI OmniHuman-1. 

OmniHuman-1 menghadirkan inovasi luar biasa dalam dunia AI video generation. Kemampuan mengubah gambar menjadi video realistis bikin AI ini berpotensi mengubah cara manusia berinteraksi dengan konten digital. Namun, tantangan etis terkait deepfake dan penyalahgunaan teknologi harus tetap menjadi perhatian utama.

This article is written by our community writers and has been carefully reviewed by our editorial team. We strive to provide the most accurate and reliable information, ensuring high standards of quality, credibility, and trustworthiness.
Share
Editor’s Picks
Topics
Editorial Team
Agam Praminsya
EditorAgam Praminsya
Follow Us