Skip to main content

Fugatto è l’AI di Nvidia che crea suoni impossibili da un prompt testuale

Fugatto è l'AI di Nvidia
26 Novembre 2024, 08:48 | Andrea De Luca Andrea De Luca

Sassofoni che abbaiano, sirene che cantano in coro, voci che emergono dalle profondità dell’oceano. No, non è l’ultima produzione di Hollywood, ma la realtà secondo Fugatto, il nuovo modello AI di Nvidia che sta per ridefinire i confini dell’audio digitale.

La forza dei dati incontra l’audio

Dimentichiamo per un attimo tutto quello che sappiamo sull’AI audio. Fugatto rompe gli schemi tradizionali partendo da zero: niente più semplici conversioni testo-voce o banali manipolazioni sonore. Qui parliamo di un sistema che comprende davvero il DNA del suono.

Nascosto dietro questa magia, un lavoro titanico: dodici ricercatori Nvidia hanno nutrito il sistema con 20 milioni di campioni audio. Cinquantamila ore di registrazioni analizzate fin nel minimo dettaglio. Il trucco? Un LLM che genera descrizioni precise di ogni “personalità sonora”, trasformando concetti astratti come “voce giovane” o “tono professionale” in parametri concreti.

“Ma come fa a capire cosa significa ‘felice’ o ‘triste’ in termini di suono?”, vi starete chiedendo. La risposta sta in un sistema di annotazione automatica che analizza ogni sfumatura: dalla frequenza fondamentale al riverbero, dalle caratteristiche emotive alle qualità timbriche. Un vero e proprio traduttore universale del linguaggio sonoro.

L’arte della composizione sonora

Ecco dove entra in gioco ComposableART, il vero cuore pulsante di Fugatto. Pensate a un DJ cosmico che può mixare non solo suoni, ma concetti sonori. Volete un violino che suona come una risata di bambino? Fatto. Un banjo che si fonde con la pioggia? Nessun problema. Macchinari industriali che urlano in “agonia metallica”? Anche questo è possibile.

La vera rivoluzione risiede nel controllo: ogni caratteristica sonora diventa un cursore da regolare. L’accento francese troppo marcato? Spostiamo il cursore verso sinistra. La voce non abbastanza malinconica? Un tocco verso destra e il gioco è fatto.

Fugatto riconosce le note MIDI e le trasforma in voci. Sincronizza automaticamente effetti sonori con qualsiasi ritmo, che sia una batteria, un cane che abbaia o un orologio che ticchetta. Isola voci, cambia emozioni nel parlato, crea arrangiamenti impossibili.

Il produttore Ido Zmishlany la mette in prospettiva: “La chitarra elettrica ha generato il rock, il sampler ha dato vita all’hip-hop. Con Fugatto, stiamo scrivendo il prossimo capitolo della musica.” E non parla solo di musica: dal sound design per videogiochi alla pubblicità internazionale, le applicazioni sembrano infinite.

Per ora Fugatto resta nei laboratori Nvidia, ma rappresenta solo l’inizio. I ricercatori lo vedono come il primo passo verso un futuro dove l’AI non si limiterà a imitare i suoni esistenti, ma creerà nuove dimensioni sonore ancora inimmaginabili.

Fonte

Tag: |

Andrea De Luca
Andrea De Luca, nato nel 1998, nel cuore dell’era digitale. La passione per l’informatica affonda le radici fin dalla sua adolescenza. Wannabe ingegnere informatico, nel frattempo studio codice, costruisco computer e tastiere meccaniche custom. Ama leggere libri di fantascienza.