Meta Rilis SAM Audio untuk Bersihkan Noise Rekaman Suara

- SAM Audio adalah model AI multimodal yang memisahkan suara dari rekaman berdasarkan prompt pengguna, dengan tiga jenis prompt yang fleksibel.
- Fleksibilitas SAM Audio membuka banyak aplikasi praktis, didukung oleh teknologi canggih Meta seperti mesin Perception Encoder Audiovisual.
- Keunggulan SAM Audio terletak pada kecepatan pemrosesan dan ketersediaannya secara gratis, meskipun masih memiliki beberapa keterbatasan yang perlu diperbaiki.
Membersihkan suara dari rekaman yang bising biasanya memerlukan keahlian editing audio dan membutuhkan waktu yang lama. Namun, Meta baru saja meluncurkan sebuah model AI yang bisa memudahkan kamu membersihkan rekaman suara. Dengan teknologi ini, kamu tak perlu lagi mengatur filter secara manual. Cukup deskripsikan suara yang ingin diisolasi atau dihilangkan, seperti "suara ayam", maka sistem akan melakukannya dengan sekejap.
Inilah SAM Audio, model AI open-source terbaru Meta yang bisa mengisolasi hampir semua jenis suara dari rekaman yang kompleks hanya dengan perintah teks sederhana. Model multimodal ini tidak hanya merespons perintah tertulis, tetapi juga bisa dikendalikan dengan klik visual pada objek dalam video agar lebih presisi. Selain Meta rilis SAM Audio untuk bersihkan noise rekaman suara, model AI open-source ini hadir untuk membuka pintu bagi berbagai aplikasi audio seperti produksi musik dan podcasting. Lantas, seperti apa cara kerja dan keunggulan dari SAM Audio? Yuk, simak selengkapnya berikut ini!
1. Apa itu SAM Audio dan bagaimana cara kerjanya?

SAM Audio adalah model AI multimodal yang dapat memisahkan suara tertentu dari sebuah rekaman berdasarkan prompt atau perintah dari pengguna. Tujuannya sederhana, yaitu memudahkan pengguna melakukan editing audio hanya dengan mengutarakan apa yang diinginkannya. Misalnya, kamu cukup mengetik perintah "hilangkan suara anjing menggonggong" atau "ambil hanya vokal penyanyi", lalu AI akan langsung mengeksekusinya.
Model AI ini mendukung tiga jenis prompt yang fleksibel untuk operasinya, yaitu Text Prompt (mengetik deskripsi suara), Visual Prompt (mengklik objek dalam video), dan Time Prompt (menandai rentang waktu kemunculan suara). Kamu dapat memilih salah satu metode atau bahkan mengombinasikan ketiganya untuk mendapatkan kontrol yang lebih akurat dalam menghilangkan elemen audio yang diinginkan.
2. Penggunaan SAM Audio dan teknologi canggih di baliknya

Fleksibilitas SAM Audio membuka banyak aplikasi praktis. Seorang podcaster dapat dengan mudah menghilangkan suara lalu lintas atau dering telepon dari rekaman wawancara, sementara musisi bisa memisahkan vokal atau instrumen tertentu dari rekaman band yang padat. Bagi kreator konten, alat ini membantu membersihkan audio video dari gangguan seperti suara angin atau hewan peliharaan, dan di bidang aksesibilitas, peneliti berpotensi mengembangkannya untuk menciptakan alat bantu dengar yang lebih cerdas dan kontekstual.
Di balik kemampuannya yang mumpuni, SAM Audio digerakkan oleh teknologi canggih. Model ini dibangun dengan mesin Perception Encoder Audiovisual milik Meta yang berfungsi sebagai otak kendali untuk memahami konteks suara sebelum memisahkannya secara akurat. Untuk memastikan kualitas dan kemajuannya, Meta juga merilis SAM Audio-Bench yang berfungsi sebuah tolak ukur menganalisis performa pemisahan audio. Selain itu, Meta juga merilis SAM Audio Judge yang bertugas menilai seberapa natural dan akurat hasil audio tersebut terdengar bagi manusia.
3. Keunggulan dan keterbatasan SAM Audio

Meta memberikan keterangan bahwa SAM Audio memiliki keunggulan utama dalam kecepatan pemrosesan, yang mampu bekerja lebih cepat (faster than real-time) bahkan untuk tugas dalam skala besar. Hasil yang paling optimal biasanya diperoleh ketika pengguna menggabungkan lebih dari satu jenis prompt, seperti teks dan petunjuk visual untuk memberikan konteks yang lebih detail kepada AI.
Namun, model ini juga memiliki beberapa keterbatasan yang perlu diketahui. SAM Audio tidak dapat menerima prompt berupa audio sebagai referensi, memerlukan panduan awal dari pengguna, tidak bisa bekerja otomatis sepenuhnya tanpa prompt, dan masih kesulitan membedakan suara yang sangat mirip atau tumpang tindih. Meta secara transparan menyatakan bahwa mereka terus berupaya memperbaiki area-area keterbatasan ini dalam pengembangan selanjutnya.
4. Tersedia untuk semua orang secara gratis

Sebagai teknologi yang inklusif, SAM Audio dapat diakses secara gratis melalui Segment Anything Playground milik Meta, sebuah platform yang juga menampung alat editing gambar dan video berbasis prompt. Sifatnya yang open-source membuka peluang kolaborasi yang luas, memungkinkan para pengembang dan peneliti untuk mengunduh, memodifikasi, serta mengintegrasikan model ini ke dalam berbagai proyek kreatif dan komersial.
Kehadiran SAM Audio tidak berhenti sebagai alat yang berdiri sendiri, tetapi terintegrasi dengan visi AI Meta yang lebih besar. Perusahaan ini sedang aktif menjajaki kolaborasi dengan produsen alat bantu dengar dan organisasi disabilitas. Secara paralel, teknologi pemrosesan audio cerdas serupa juga sedang dikembangkan.
Inovasi Meta rilis SAM Audio merupakan langkah menarik menuju dunia editing audio yang lebih kreatif dan intuitif. Dengan hanya mengetik, dan mengklik, siapa pun kini bisa membersihkan rekaman suara seperti seorang editor profesional tanpa membutuhkan software yang mahal. Jadi, apakah kamu tertarik mencobanya?


















