11 45

ChatGPT puede decirle qué están haciendo los científicos con los LLM

En este momento, todo el mundo está viendo un auge en la forma en que las personas innovan en grandes modelos lingüísticos.

Ya sea que crea que la masa está diseñando estos sistemas o simplemente los está descubriendo, asimilar más sobre su cambio ayuda a aquellos que estén interesados ​​a descubrir cómo se utilizarán en el futuro.

Un ejemplo flamante es este artículo donde los autores hablan sobre el uso de activaciones de 4 bits para LLM de 1 bit.

Sería bueno dividir poco de esto en un inglés un poco más simple:

En primer lado, ¿qué es un LLM de 1 bit?

Si no tiene la beocio idea de qué es eso, le resultará benefactor evitar la búsqueda en Google y acaecer directamente a ChatGPT para preguntarle al maniquí cómo describiría la estructura.

Es posible que obtenga lo futuro:

“Un ‘LLM de 1 bit’ (maniquí de habla ínclito de 1 bit) generalmente se refiere a un maniquí que opera con memoria o precisión computacional extremadamente restringidas, y generalmente permite que solo un bit binario (0 o 1) represente pesos o activaciones. Esto contrasta con el uso más global de precisión de punto flotante de 32 o 16 bits en redes neuronales”.

Básicamente, estos sistemas están restringidos. El binario es una estructura simple, un simple “sí” o “no”. Las activaciones de 4 bits más complicadas proporcionarán más complejidad.

Activaciones de 4 bits: ¿dónde se implementan?

Entonces, ¿los científicos de datos simplemente están poniendo activaciones de 4 bits en todo el maniquí?

No.

Están adoptando una política de amplificar estas activaciones estructuradas de forma diferente a capas particulares. En el artículo, hablan de aumentar la atención y las capas de red de feedback, y de adoptar una política más escasa para los “estados intermedios”; los autores escriben:

“Las activaciones escasas o de bits bajos en los LLM sirvieron como un enfoque prometedor para achicar aún más el presupuesto computacional y al mismo tiempo abastecer el rendimiento en las tareas posteriores”.

Todavía utilizan esta metáfora arbórea:

“Un enfoque global es utilizar la dispersión de activación, lo que reduce los FLOP de inferencia y la E/S de peso al podar las entradas de activación con magnitudes más pequeñas”.

Otra logística de este tipo es la cuantización.

¿Qué es la cuantización?

Supongamos que no tienes idea de qué es la cuantización. Volvamos nuevamente a ChatGPT para obtener una respuesta.

Cuando le preguntas a ChatGPT: “¿Qué es la cuantización en IA?”, obtienes un par de páginas de respuesta. Sin confiscación, asimismo aparece un párrafo sucinto al principio, que comienza de esta forma:

“La cuantización en IA es una técnica utilizada para achicar la precisión de los números que representan los parámetros (pesos) y las activaciones del maniquí, con el objetivo de hacer que los modelos sean más eficientes en términos de uso de memoria y velocidad computacional”.

¿Eh?

Bueno, podrías tomar lo inicial y convertirlo en poco como esto: “la cuantificación hace que los números de entrada sean menos precisos para atesorar memoria y posibles”.

O podrías pedirle a ChatGPT que simplifique el primer párrafo y obtenga:

“La cuantización en IA reduce la precisión de los números en los pesos y activaciones de un maniquí para atesorar memoria y acelerar los cálculos, lo que hace que los modelos sean más eficientes y adecuados para dispositivos con posibles limitados”.

Y pregúntale nuevamente para obtener esto:

“La cuantización reduce la precisión del maniquí para atesorar memoria y aumentar la velocidad”.

Esto es extremadamente interesante en más de un sentido.

Solo por diversión, asimismo puedes incluir el futuro extracto del artículo, por ejemplo, para obtener la explicación de ChatGPT:

“Las entradas a las capas de atención y FFN generalmente siguen una distribución similar a Gauss, mientras que las activaciones antiguamente de las proyecciones descendentes de FFN y las proyecciones de salida en atención tienen más canales atípicos y una cantidad masiva (sic) de entradas cerca de de cero”.

Cuando lo hice, el maniquí devolvió esto, explicando claramente la “distribución similar a Gauss” sin siquiera que me lo preguntaran:

“Las entradas a las capas de atención y feedback generalmente parecen una curva de campana, con la mayoría de los títulos agrupados en el medio. Pero calibrado antiguamente de que la capa de feedback reduzca su tamaño, y al final de la capa de atención, hay muchos títulos cercanos a cero, cercano con algunos títulos inusuales y muy diferentes”.

No es necesario observar todo el documento para ver cómo funciona. Lo que se puede sacar de esto incluye dos cosas importantes: primero, que los ingenieros están diversificando la forma en que tratan cada capa de una red neuronal para obtener mejores resultados. En segundo lado, ChatGPT puede ser uno de los explicadores más eficaces de nueva ciencia para principiantes.