Nvidia muestra un maniquí de IA que puede modificar voces y crear sonidos novedosos

Por Stephen Nellis

(Reuters) – Nvidia mostró el lunes un nuevo maniquí de inteligencia sintético para ocasionar música y audio que puede modificar voces y ocasionar sonidos novedosos, una tecnología dirigida a los productores de música, películas y videojuegos.

Nvidia, el decano proveedor mundial de chips y software utilizados para crear sistemas de inteligencia sintético, dijo que no tiene planes inmediatos de difundir públicamente la tecnología, a la que fogosidad Fugatto, iniciales de Foundational Generative Audio Transformer Opus 1.

Se une a otras tecnologías mostradas por nuevas empresas como Runway y actores más grandes como Meta Platforms que pueden ocasionar audio o video a partir de un mensaje de texto.

La interpretación de Nvidia, con sede en Santa Clara, California, genera haberes de sonido y música a partir de una descripción de texto, incluidos sonidos novedosos como hacer que una trompeta ladre como un perro.

Lo que la diferencia de otras tecnologías de IA es su capacidad de absorber y modificar el audio existente, por ejemplo, tomando una trayecto tocada en un piano y transformándola en una trayecto cantada por una voz humana, o tomando una impresión de una palabra hablada y cambiándola. el acento utilizado y el estado de humor expresado.

“Si pensamos en el audio sintético de los últimos 50 abriles, la música suena diferente ahora correcto a las computadoras, correcto a los sintetizadores”, dijo Bryan Catanzaro, vicepresidente de investigación de educación profundo estudioso en Nvidia. “Creo que la IA generativa aportará nuevas capacidades a la música, a los videojuegos y a la muchedumbre corriente que quiere crear cosas”.

Mientras empresas como OpenAI están negociando con los estudios de Hollywood sobre si la IA podría estilarse en la industria del entretenimiento y cómo, la relación entre la tecnología y Hollywood se ha vuelto tensa, particularmente a posteriori de que la suerte de Hollywood Scarlett Johansson acusó a OpenAI de imitar su voz.

El nuevo maniquí de Nvidia fue entrenado con datos de fuente abierta, y la compañía dijo que todavía está debatiendo si publicarlo públicamente y cómo hacerlo.

“Cualquier tecnología generativa siempre conlleva algunos riesgos, porque la muchedumbre podría usarla para ocasionar cosas que preferiríamos que no hicieran”, dijo Catanzaro. “Necesitamos tener cuidado con eso, por lo que no tenemos planes inmediatos para publicarlo”.

Los creadores de modelos de IA generativa aún tienen que determinar cómo advertir el despotismo de la tecnología, como que un sucesor genere información errónea o infrinja los derechos de autor al ocasionar caracteres protegidos por derechos de autor.

OpenAI y Meta siquiera han dicho cuándo planean difundir al divulgado sus modelos que generan audio o video.

(Reporte de Stephen Nellis en San Francisco; Editado por Will Dunham)