Nvidia muestra un modelo de IA que puede modificar voces y generar sonidos novedosos

Por Stephen Nellis

(Reuters) – Nvidia mostró el lunes un nuevo modelo de inteligencia artificial para generar música y audio que puede modificar voces y generar sonidos novedosos, una tecnología dirigida a los productores de música, películas y videojuegos.

Nvidia, el mayor proveedor mundial de chips y software utilizados para crear sistemas de inteligencia artificial, dijo que no tiene planes inmediatos de lanzar públicamente la tecnología, a la que llama Fugatto, abreviatura de Foundational Generative Audio Transformer Opus 1.

Se une a otras tecnologías mostradas por nuevas empresas como Runway y actores más grandes como Meta Platforms que pueden generar audio o video a partir de un mensaje de texto.

La versión de Nvidia, con sede en Santa Clara, California, genera efectos de sonido y música a partir de una descripción de texto, incluidos sonidos novedosos como hacer que una trompeta ladre como un perro.

Lo que la diferencia de otras tecnologías de IA es su capacidad de absorber y modificar el audio existente, por ejemplo, tomando una línea tocada en un piano y transformándola en una línea cantada por una voz humana, o tomando una grabación de una palabra hablada y cambiándola. el acento utilizado y el estado de ánimo expresado.

“Si pensamos en el audio sintético de los últimos 50 años, la música suena diferente ahora debido a las computadoras, debido a los sintetizadores”, dijo Bryan Catanzaro, vicepresidente de investigación de aprendizaje profundo aplicado en Nvidia. “Creo que la IA generativa aportará nuevas capacidades a la música, a los videojuegos y a la gente corriente que quiere crear cosas”.

Mientras empresas como OpenAI están negociando con los estudios de Hollywood sobre si la IA podría usarse en la industria del entretenimiento y cómo, la relación entre la tecnología y Hollywood se ha vuelto tensa, particularmente después de que la estrella de Hollywood Scarlett Johansson acusó a OpenAI de imitar su voz.

El nuevo modelo de Nvidia fue entrenado con datos de fuente abierta, y la compañía dijo que todavía está debatiendo si publicarlo públicamente y cómo hacerlo.

“Cualquier tecnología generativa siempre conlleva algunos riesgos, porque la gente podría usarla para generar cosas que preferiríamos que no hicieran”, dijo Catanzaro. “Necesitamos tener cuidado con eso, por lo que no tenemos planes inmediatos para publicarlo”.

Los creadores de modelos de IA generativa aún tienen que determinar cómo prevenir el abuso de la tecnología, como que un usuario genere información errónea o infrinja los derechos de autor al generar caracteres protegidos por derechos de autor.

OpenAI y Meta tampoco han dicho cuándo planean lanzar al público sus modelos que generan audio o video.

(Reporte de Stephen Nellis en San Francisco; Editado por Will Dunham)

Deja un comentario Cancelar respuesta