Nvidia se está adentrando en los modelos mundiales: modelos de IA que se inspiran en los modelos mentales del mundo que los humanos desarrollan de forma natural.
En CES 2025 en Las Vegas, la compañía anunció que pondrá a disposición de forma abierta una clan de modelos mundiales que pueden predecir y desarrollar videos “conscientes de la física”. Nvidia cirio a esta clan Cosmos World Foundation Models, o Cosmos WFM para abreviar.
Los modelos, que se pueden ajustar para aplicaciones específicas, están disponibles en los catálogos API y NGC de Nvidia, GitHub y la plataforma de exposición de IA Hugging Face.
“Nvidia está poniendo a disposición la primera ola de Cosmos WFM para simulación basada en física y suscitación de datos sintéticos”, escribió la compañía en una publicación de blog proporcionada a TechCrunch. “Los investigadores y desarrolladores, independientemente del tamaño de su empresa, pueden utilizar independientemente los modelos Cosmos bajo la permisiva tropelía de maniquí amplio de Nvidia que permite el uso comercial”.
Hay varios modelos en la clan Cosmos WFM, divididos en tres categorías: Nano para aplicaciones de quebranto latencia y en tiempo vivo, Super para modelos “básicos de detención rendimiento” y Reaccionario para resultados de máxima calidad y fidelidad.
Los modelos varían en tamaño desde 4 mil millones a 14 mil millones de parámetros, siendo Nano el más pequeño y Reaccionario el más sobresaliente. Los parámetros corresponden aproximadamente a las habilidades de resolución de problemas de un maniquí, y los modelos con más parámetros generalmente funcionan mejor que aquellos con menos parámetros.
Como parte de Cosmos WFM, Nvidia igualmente está lanzando un “maniquí de muestreo superior”, un decodificador de video optimizado para efectividad aumentada y modelos de antepecho para respaldar un uso responsable, así como modelos ajustados para aplicaciones como la suscitación de datos de sensores para el exposición de vehículos autónomos. . Estos, así como los otros modelos Cosmos WFM, fueron entrenados en 9.000 billones de tokens de 20 millones de horas de interacciones humanas, ambientales, industriales, robóticas y de conducción en el mundo vivo, dijo Nvidia. (En IA, los “tokens” representan bits de datos sin procesar; en este caso, secuencias de video).
Nvidia no dijo de dónde provienen estos datos de capacitación, pero al menos un relato (y una demanda) alega que la compañía entrenó sin permiso con videos de YouTube protegidos por derechos de autor.
Cuando se le contactó para hacer comentarios, un portavoz de Nvidia le dijo a TechCrunch que Cosmos “no está diseñado para copiar o infringir ninguna obra protegida”.
“El cosmos aprende del mismo modo que aprende la masa”, afirmó el portavoz. “Para ayudar a Cosmos a estudiar, recopilamos datos de una variedad de fuentes públicas y privadas y estamos seguros de que nuestro uso de los datos es consistente tanto con la símbolo como con el espíritu de la ley. Datos sobre cómo funciona el mundo, que es lo que aprenden los modelos de Cosmos – no tienen derechos de autor ni están sujetos al control de ningún autor o empresa individual”.