Adobe presenta Project VoCo, il "Photoshop per la voce".


In questi giorni Adobe, l'azienda nota per aver portato Photoshop, (e diversi altri software di editing), nei computer e dispositivi di tutto il mondo, ha deciso di fare un passo in avanti ed aprire le porte ad un altro epocale cambiamento: la "photoshoppizzazione della voce umana", presentando un nuovo progetto chiamato Project VoCo, (o più semplicemente VoCo), il quale può essere definito come il "Photoshop per la voce", poiché applica alla manipolazione del flusso audio lo stesso approccio oggi viene impiegato, appunto, nella modifica delle immagini. Per farla breve questo nuovo software è in grado di aggiungere o togliere parole dalle frasi pronunciate e da una registrazione vocale, come se si stessero clonando o correggendo i pixel di una fotografia: come è possibile fare ad oggi con testi, foto e video, si potrà tagliare/incollare parole e frasi, ma anche aggiungere parole che non sono state dette, con la voce della persona registrata, creando frasi del tutto nuove. Tuttavia per funzionare correttamente VoCo ha bisogno di una registrazione di circa 20 minuti, dalla quale poi elabora la voce in modo da consentire la modifica del tutto, offrendo risultati finali alquanto naturali. Ad ogni modo ad occuparsi di questo progetto, (presentato alla conferenza MAX 2016, andata in scena in questi giorni a San Diego), è la divisione Research di Adobe, in collaborazione con un team dell'Università di Princeton. Al riguardo durante la suddetta conferenza Zeyu Jin, responsabile del progetto hanno spiegato: "Quando si registrano voci fuori campo, dialoghi e narrazioni, le persone spesso tendono a cambiare o inserire una o più parole, per errore o semplicemente perché gli piace farlo. Abbiamo sviluppato una tecnologia chiamata Project VoCo che permette di digitare una o più parole che si desidera cambiare o inserire in una registrazione. L'algoritmo si occupa di tutto ed il risultato sembra generato dalla voce originale dello speaker". Naturalmente VoCo, (ancora in fase di sviluppo ed in quanto tale non è ancora perfetto: ascoltando attentamente a volte è, infatti, possibile individuare i punti dove la voce è stata modificata, il che vuol dire che usare gli algoritmi per fabbricare intere frasi da zero è ancora prematuro), apre la porta ad infinite possibilità di manipolazione, anche pericolose: si pensi, ad esempio, alla possibilità di modificare il discorso di un esponente politico. Il che costringe a riflettere: se operazioni del genere diventassero semplici come alterare uno scatto con Photoshop, si dovrebbe iniziare a fare ancora più attenzione non solo a quel che si vede, ma anche a quel che si sente, perché l'ascolto della voce sintetica può far cadere in inganno chi ascolta. In tal proposito Adobe ha assicurato di essere al lavorando attorno a questo tipo di problemi grazie le cosiddette tecniche di ''watermarking and detection'', per evitare usi fraudolenti. Comunque sia in definitiva Project VoCo è un sintetizzatore vocale evoluto, che tiene conto della voce dello speaker, dell'inflessione, del contesto, della cadenza e di numerosi altri parametri per far sì che la modifica non sia percepita da chi ascolta; anche se per il momento non è dato a sapere se né quando diventerà un software destinato al mercato.

Di seguito la presentazione di VoCo durante MAX 2016:

Commenti