Unsplash/ Richard Horvath
Sampel yang dikeluarkan Google tersebut bisa dibilang cukup mengesankan. Ada beberapa mode yang dirilis oleh Google untuk MusicLM. Ada mode "Audio Generation From Rich Captions" di mana ia bisa menghasilkan cuplikan 30 detik yang terdengar seperti lagu sebenarnya yang dibuat dari deskripsi teks yang menentukan genre, getaran, dan bahkan instrumen yang kita inginkan. Ada "Long Generation" yang bisa membuat musik sepanjang 5 menit dari satu atau dua kata saja.
Ada juga "Story Mode", di mana AI tersebut diberi skrip untuk membuat musik yang bisa berubah tergantung skripnya.
Misalnya, prompt ini:
jazz song (0:00-0:15)
pop song (0:15-0:30)
rock song(0:30-0:45)
death metal song (0:45-1:00)
rap song (1:00-1:15)
string quartet with violins (1:15-1:30)
epic movie soundtrack with drums (1:30-1:45)
scottish folk song with traditional instruments (1:45-2:00)
Dengan skrip seperti di atas, MusicLM akan menghasilkan musik sepanjang 2 menit yang berisi beberapa bagian seperti yang ditulis oleh teks prompt di atas.
Selain itu ada juga mode "Painting Caption Conditioning" yang mampu membuat musik berdasarkan gambar yang diberikan beserta teks caption yang kita input. Melansir penjelasan resmi MusicLM di laman riset Google, kemampuan MusicLM disebut mengungguli sistem sebelumnya baik dalam kualitas audio maupun kepatuhan terhadap deskripsi teks.
Jika tertarik untuk mendengarkannya, bisa langsung menuju ke MuiscLM dalam laman riset Google.