Google ha publicado un artículo de investigación sobre una nueva tecnología citación Infini-attention, que le permite procesar grandes cantidades de datos con “contextos infinitamente largos”, y al mismo tiempo puede insertarse fácilmente en otros modelos para mejorar enormemente sus capacidades.
Esta última parte debería interesar a cualquiera interesado en el cálculo de Google. Infini-attention es plug-and-play, lo que significa que es relativamente realizable de conectar a otros modelos, incluidos los que utiliza el cálculo central de Google. La parte sobre «contextos infinitamente largos» podría tener implicaciones sobre cómo se podrían renovar algunos de los sistemas de búsqueda de Google.
El nombre del artículo de investigación es: No deje ningún contexto detrás: transformadores de contexto infinitos y eficientes con atención infinita
La memoria es computacionalmente costosa para los LLM
Los modelos de lenguajes grandes (LLM) tienen limitaciones en la cantidad de datos que pueden procesar a la vez porque la complejidad computacional y el uso de memoria pueden aumentar significativamente. Infini-Attention le brinda a LLM la capacidad de manejar contextos más largos mientras mantiene muerto la memoria y la potencia de procesamiento requeridas.
El artículo de investigación explica:
“La memoria sirve como saco de la inteligencia, ya que permite realizar cálculos eficientes y adaptados a contextos específicos. Sin secuestro, los Transformers… y los LLM basados en Transformer… tienen una memoria restringida dependiente del contexto, correcto a la naturaleza del mecanismo de atención.
De hecho, subir los LLM a secuencias más largas (es afirmar, 1 millón de tokens) es un desafío con las arquitecturas Transformer habitual y servir modelos de contexto cada vez más largos se vuelve financieramente costoso”.
Y en otra parte el artículo de investigación explica:
“Los modelos de transformadores actuales tienen una capacidad limitada para procesar secuencias largas correcto a los aumentos cuadráticos en los costos computacionales y de memoria. Infini-attention tiene como objetivo resolver este problema de escalabilidad”.
Los investigadores plantearon la hipótesis de que la atención de Infini podría ampliarse para manejar secuencias extremadamente largas con Transformers sin los aumentos habituales en medios computacionales y de memoria.
Tres características importantes
La atención Infini de Google resuelve las deficiencias de los modelos de transformadores al incorporar tres características que permiten a los LLM basados en transformadores manejar secuencias más largas sin problemas de memoria y les permite usar el contexto de los datos en una etapa aludido de la secuencia y combinarlo con el contexto más grande en dirección a el final. final de la secuencia.
Las características de Infini-Atenção
- Sistema de memoria compresiva
- Cuidado rectilíneo a grande plazo
- Atención recinto enmascarada
Sistema de memoria compresiva
Infini-attention utiliza lo que se fogata un sistema de memoria compresivo. A medida que se ingresan más datos (como parte de una secuencia de datos más larga), el sistema de memoria compresiva comprime parte de la información más antigua para sujetar la cantidad de espacio necesario para acumular los datos.
Cuidado rectilíneo a grande plazo
La atención infinita todavía utiliza lo que se denomina «mecanismos de atención rectilíneo a grande plazo» que permiten al LLM procesar datos que existen al manifestación de la secuencia.
Esto es importante para tareas donde el contexto existe en un plano de datos más amplio. Es como poder discutir un compendio completo internamente del contexto de todos los capítulos y explicar cómo el primer capítulo se relaciona con otro capítulo en el medio del compendio.
Atención recinto enmascarada
Adicionalmente de la atención a grande plazo, la atención Infini todavía utiliza la citación atención recinto enmascarada. Este tipo de atención procesa partes cercanas (localizadas) de los datos de entrada, lo que resulta útil para respuestas que dependen de partes más cercanas de los datos.
Combinar la atención recinto y a grande plazo ayuda a resolver el problema de que los transformadores estén limitados en la cantidad de datos de entrada que pueden rememorar y utilizar como contexto.
Los investigadores explican:
«La atención Infini incorpora una memoria compresiva en el mecanismo de atención primordial y construye tanto la atención recinto enmascarada como los mecanismos de atención rectilíneo a grande plazo en un solo coalición Transformer».
Resultados de experimentos y pruebas.
La atención infinita se probó con modelos regulares para compararlos en varios puntos de narración que involucran secuencias de entrada largas, como modelado de habla de contexto grande, recuperación de claves de paso y tareas de sumario de libros. La recuperación de contraseña es una prueba en la que el maniquí de habla necesita recuperar datos específicos de una prisión de texto extremadamente larga.
Relación de tres pruebas:
- Modelado de habla de contexto grande
- Prueba de secreto de paso
- Síntesis del compendio
Modelado de habla de contexto grande y puntuación de perplejidad
Los investigadores escriben que los modelos con atención Infini superaron a los modelos básicos y que aumentar la duración de la secuencia de entrenamiento trajo mejoras aún mayores en el rendimiento. Puntuación de perplejidad. La puntuación de perplejidad es una métrica que mide el rendimiento del maniquí de habla; puntuaciones más bajas indican un mejor rendimiento.
Los investigadores compartieron sus hallazgos:
“El Infini-Transformer supera las líneas saco del Transformer-XL… y Memorizing Transformers al proseguir 114 veces menos parámetros de memoria que el maniquí Memorizing Transformer con una memoria KV basada en recuperación vectorial de 65K de grande en su novena capa. Infini-Transformer supera a los transformadores de memoria con una largo de memoria de 65K y logra una relación de compresión de 114x.
Aumentamos aún más la largo de la secuencia de entrenamiento de 32K a 100K y entrenamos los modelos en el conjunto de datos Arxiv-math. El entrenamiento de 100K redujo aún más la puntuación de perplejidad a 2,21 y 2,20 para los modelos Directo y Linear + Delta”.
Prueba de secreto de paso
La prueba de secreto de paso consiste en ocultar un número fortuito internamente de una larga prisión de texto, y la tarea del maniquí es averiguar el texto oculto. La secreto de paso está oculta cerca del principio, la fracción o el final del texto descriptivo. El maniquí pudo resolver la prueba de contraseñas de hasta 1 millón.
“Un 1B LLM escalera lógicamente a una largo de secuencia de 1M y resuelve la tarea de recuperación de la secreto de paso cuando se le inyecta atención Infini. Infini-Transformers resolvió la tarea de la secreto de paso con una largo de contexto de hasta 1 M cuando se sintonizaron con entradas de 5 K de largo. Informamos la precisión de la recuperación a nivel de token para claves de paso ocultas en una parte diferente (inicio/medio/final) de entradas largas con longitudes de 32K a 1M”.
Prueba de sumario del compendio
Infini-attention todavía destacó en la prueba de sumario del compendio, superando puntos de narración secreto y alcanzando nuevos niveles de rendimiento de próxima engendramiento (SOTA).
Los resultados se describen:
“Finalmente, mostramos que un maniquí 8B con atención Infini logra un nuevo resultado SOTA en una tarea de sumario de compendio de 500K luego de un entrenamiento previo continuo y un ajuste fino de la tarea.
… Ampliamos aún más nuestro enfoque entrenando previamente continuamente un maniquí LLM 8B con una largo de entrada de 8K para pasos de 30K. A continuación, mejoramos una tarea de sumario de libros, BookSum (Kry´sci´nski et al., 2021), donde el objetivo es crear un sumario del texto completo de un compendio.
Nuestro maniquí supera los mejores resultados anteriores y logra un nuevo SOTA en BookSum al procesar todo el texto del compendio. …Existe una tendencia clara que muestra que al proporcionar más texto como entrada del compendio, nuestros Infini-Transformers mejoran su métrica de rendimiento resumido”.
Implicaciones de la atención infinita para el SEO
La atención Infini es un gran avance en el modelado de la atención de grande y corto envergadura con anciano eficiencia que los modelos anteriores sin atención Infini. Además apoya “Entrenamiento previo continuo plug-and-play y acondicionamiento a grande plazo mediante diseño.”Lo que significa que se puede integrar fácilmente en los modelos existentes.
Por postrer, el “formación previa continua y acondicionamiento al contexto a grande plazo”lo hace ideal para escenarios donde hay un flujo de datos nuevos que deben agregarse constantemente para entrenar un maniquí. Esta última parte es súper interesante porque puede ser útil para aplicaciones en el back-end de los sistemas de búsqueda de Google, especialmente donde es necesario poder analizar largas secuencias de información y comprender la relevancia de una parte cercana al manifestación del secuencia. a otra parte que está más cerca del final.
El hecho de que los investigadores afirmen «entradas infinitamente largas» es sorprendente, pero lo que es efectivamente importante para el SEO es que este motor es la capacidad de manejar largas cadenas de datos para «no dejar contexto detrás», así como el aspecto plug and play de esto. . Da una idea de cómo se podrían mejorar algunos de los sistemas de Google si Google adaptara la atención de Infini a los sistemas internamente de su cálculo central.
Lea el artículo de investigación:
Imagen destacada de Shutterstock/JHVEPhoto