DeepMind'ın açıklamasına göre, V2A hem yazılı açıklamalardan yararlanıyor hem de videoyu piksel piksel analiz ederek sesleri oluşturuyor. Bu sayede, videoların seslendirilmesi için ayrıca bir metin yazmanıza gerek kalmıyor.
Sesli Videoların Önemi
Metin veya resimden video oluşturabilen pek çok yapay zeka aracı bulunmasına rağmen, bu araçlar genellikle sessiz videolar üretiyor. Oysa video, işitsel ve görsel unsurların birleşimiyle etkisini gösterir. Bir tren videosu izlerken rayların, vagonların ve lokomotifin sesini duymak, video deneyimini tamamlar.
Gelişim Süreci ve Örnekler
DeepMind, V2A'nın görüntüye uyumlu ses üretme ve sesi otomatik olarak görüntü ile senkronize etme konusunda rakipsiz olduğunu iddia ediyor. Ancak şu anda paylaşılan örnekler, V2A'nın hala gelişme sürecinde olduğunu gösteriyor. Sesler, daha çok stok sesler gibi dublajlanmış gibi görünüyor.
Yine de, geçmişteki başarı öykülerini hatırlamak önemlidir. Dall-E'nin bir zamanlar kanarya çizdiğini düşünürsek, yapay zeka araçlarının kullanıldıkça ve geliştirildikçe nasıl ilerleme kaydedebileceğini görmek mümkündür.