Inteligencia artificial
IA
IA generativa

Grandes modelos lingüísticos: los cimientos de la IA generativa

Los grandes modelos lingüísticos evolucionaron junto con las redes neuronales de aprendizaje profundo y son fundamentales para la IA generativa. He aquí un primer vistazo, incluidos los mejores LLM y para qué se utilizan hoy en día.

Inteligencia Artificial Generativa

Los grandes modelos de lenguaje (LLM), como GPT, Bard y Llama 2, han cautivado la imaginación del público y han suscitado reacciones muy diversas. Este artículo te ayudará a entender los orígenes de los grandes modelos lingüísticos, cómo se construyen y entrenan y para qué tareas están especializados. También analizaremos los LLM más populares que se utilizan en la actualidad.

 

¿Qué es un gran modelo lingüístico?

Los modelos lingüísticos se remontan a principios del siglo XX, pero los grandes modelos lingüísticos (LLM) surgieron con fuerza tras la introducción de las redes neuronales. La arquitectura de red neuronal profunda Transformer, introducida en 2017, fue especialmente decisiva en la evolución de los modelos lingüísticos a los LLM.

Los grandes modelos de lenguaje son útiles para una variedad de tareas, incluida la generación de texto a partir de una indicación descriptiva, la generación de código y la finalización de código, el resumen de texto, la traducción entre idiomas y las aplicaciones de texto a voz y de voz a texto.

Los LLM también tienen inconvenientes, al menos en su fase actual de desarrollo. El texto generado suele ser mediocre, y a veces cómicamente malo. Se sabe que los LLM inventan hechos, llamados alucinaciones, que pueden parecer razonables si no se conocen mejor. Las traducciones de idiomas rara vez son precisas al 100% a menos que hayan sido revisadas por un hablante nativo, lo que normalmente sólo se hace para las frases comunes. El código generado a menudo tiene errores y a veces no tiene ninguna esperanza de funcionar. Aunque los LLM suelen estar ajustados para evitar hacer declaraciones controvertidas o recomendar actos ilegales, es posible saltarse estos límites con indicaciones malintencionadas.

El entrenamiento de grandes modelos lingüísticos requiere al menos un gran corpus de texto. Algunos ejemplos de entrenamiento son 1B Word Benchmark, Wikipedia, Toronto Books Corpus, el conjunto de datos Common Crawl y los repositorios públicos de código abierto GitHub. Dos problemas potenciales de los grandes conjuntos de datos de texto son la infracción de los derechos de autor y la basura. La infracción de los derechos de autor es actualmente objeto de múltiples demandas. La basura, al menos, puede limpiarse; un ejemplo de conjunto de datos limpio es el Colossal Clean Crawled Corpus (C4), un conjunto de datos de 800 GB basado en el conjunto de datos Common Crawl.

Los grandes modelos lingüísticos se diferencian de los modelos lingüísticos tradicionales en que utilizan una red neuronal de aprendizaje profundo, un corpus de entrenamiento de gran tamaño y requieren millones o más de parámetros o pesos para la red neuronal.

Junto con al menos un gran corpus de entrenamiento, los LLM requieren un gran número de parámetros, también conocidos como pesos. El número de parámetros creció a lo largo de los años, hasta que dejó de hacerlo. ELMo (2018) tiene 93,6 millones de parámetros; BERT (2018) se lanzó en tamaños de 100 millones y 340 millones de parámetros; GPT (2018) utiliza 117 millones de parámetros; y T5 (2020) tiene 220 millones de parámetros. GPT-2 (2019) tiene 1.600 millones de parámetros; GPT-3 (2020) utiliza 175.000 millones de parámetros; y PaLM (2022) tiene 540.000 millones de parámetros. GPT-4 (2023) tiene 1,76 billones de parámetros.

Más parámetros hacen que un modelo sea más preciso, pero los modelos con más parámetros también requieren más memoria y se ejecutan más lentamente. En 2023, hemos empezado a ver algunos modelos relativamente pequeños lanzados en múltiples tamaños: por ejemplo, Llama 2 viene en tamaños de 7.000, 13.000 y 70.000 millones, mientras que Claude 2 tiene tamaños de 93.000 y 137.000 millones de parámetros.

 

Historia de los modelos de IA para la generación de textos

Los modelos lingüísticos se remontan a Andrey Markov, que aplicó las matemáticas a la poesía en 1913. Markov demostró que en Eugene Onegin, de Pushkin, la probabilidad de que apareciera un carácter dependía del carácter anterior y que, en general, las consonantes y las vocales tendían a alternarse. Hoy en día, las cadenas de Markov se utilizan para describir una secuencia de acontecimientos en la que la probabilidad de cada acontecimiento depende del estado del anterior.

El trabajo de Markov fue ampliado por Claude Shannon en 1948 para la teoría de las comunicaciones, y de nuevo por Fred Jelinek y Robert Mercer de IBM en 1985 para producir un modelo lingüístico basado en la validación cruzada (que denominaron estimaciones suprimidas), y aplicado al reconocimiento del habla de gran vocabulario en tiempo real. En esencia, un modelo estadístico del lenguaje asigna probabilidades a secuencias de palabras.

Para ver rápidamente un modelo lingüístico en acción, basta con escribir unas palabras en Google Search o en una aplicación de mensajes de texto del teléfono, con la función de autocompletado activada.

En el año 2000, Yoshua Bengio y sus coautores publicaron un artículo en el que describían un modelo lingüístico probabilístico neural en el que las redes neurales sustituían las probabilidades de un modelo lingüístico estadístico, eludían la 'maldición de la dimensionalidad' y mejoraban las predicciones de palabras entre un 20% y un 35% con respecto a un modelo de trigramas suavizado (por entonces el más avanzado). La idea de los modelos lingüísticos basados en redes neuronales autorregresivas feed-forward se sigue utilizando hoy en día, aunque ahora los modelos tienen miles de millones de parámetros y se entrenan con extensos corpus; de ahí el término "gran modelo lingüístico".

Los modelos lingüísticos han seguido creciendo con el tiempo, con el objetivo de mejorar su rendimiento. Pero este crecimiento tiene sus inconvenientes. El artículo de 2021, On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?, se pregunta si estamos yendo demasiado lejos con la tendencia de "más grande es mejor". Los autores sugieren sopesar primero los costes medioambientales y financieros e invertir recursos en conservar y documentar conjuntos de datos en lugar de ingerir todo lo que hay en la red.

 

Explicación de los modelos lingüísticos y los LLM

Los modelos lingüísticos actuales tienen diversas tareas y objetivos y adoptan diversas formas. Por ejemplo, además de la tarea de predecir la siguiente palabra de un documento, los modelos lingüísticos pueden generar texto original, clasificar texto, responder preguntas, analizar sentimientos, reconocer entidades con nombre, reconocer el habla, reconocer texto en imágenes y reconocer escritura a mano. La personalización de los modelos lingüísticos para tareas específicas, normalmente utilizando conjuntos de entrenamiento suplementarios de tamaño pequeño o mediano, se denomina ajuste fino (fine-tuning).

Algunas de las tareas intermedias que intervienen en los modelos lingüísticos son las siguientes:

  • Segmentación del corpus de entrenamiento en frases
  • Tokenización de palabras
  • Stemming
  • Lematización (conversión a la palabra raíz)
  • Etiquetado POS (part of speech)
  • Identificación y (posible) eliminación de stopwords
  • Reconocimiento de entidades con nombre (NER)
  • Clasificación de textos
  • Chunking (división de frases en fragmentos significativos)
  • Resolución de coreferencias (búsqueda de todas las expresiones que se refieren a la misma entidad en un texto)

Algunos de estos modelos también son útiles como tareas o aplicaciones en sí mismas, como la clasificación de textos.

Los grandes modelos lingüísticos se diferencian de los modelos lingüísticos tradicionales en que utilizan una red neuronal de aprendizaje profundo y un gran corpus de entrenamiento, y requieren millones o más de parámetros o pesos para la red neuronal. Entrenar un LLM es una cuestión de optimizar los pesos para que el modelo tenga la tasa de error más baja posible para su tarea designada. Un ejemplo de tarea sería predecir la siguiente palabra en cualquier punto del corpus, normalmente de forma autosupervisada.

 

Un vistazo a los LLM más populares

La reciente explosión de grandes modelos de lenguaje fue provocada por el artículo de 2017, Attention is All You Need, que presentó el Transformer como, "una nueva arquitectura de red simple (...) basada únicamente en mecanismos de atención, prescindiendo por completo de la recurrencia y las convoluciones".

Estos son algunos de los principales modelos de lenguaje de gran tamaño en uso hoy en día.

 

ELMo

ELMo es un LLM de representación profunda contextualizada de palabras de 2018 de AllenNLP que modela tanto las características complejas del uso de palabras como la forma en que ese uso varía a través de contextos lingüísticos. El modelo original tiene 93,6 millones de parámetros y fue entrenado en el 1B Word Benchmark.

 

BERT

BERT es un modelo lingüístico de 2018 de Google AI basado en la arquitectura de red neuronal Transformer de la empresa. BERT se diseñó para preentrenar representaciones bidireccionales profundas a partir de texto sin etiquetar condicionando conjuntamente el contexto izquierdo y derecho en todas las capas. Los dos tamaños de modelo utilizados inicialmente fueron 100 millones y 340 millones de parámetros totales. El LLM utiliza el modelado de lenguaje enmascarado (MLM), en el que ~15% de los tokens se "corrompen" para el entrenamiento. Se entrenó con Wikipedia en inglés y el Toronto Books Corpus.

 

T5

El modelo Text-To-Text Transfer Transformer (T5) 2020 de Google sintetiza un nuevo modelo basado en las mejores técnicas de aprendizaje por transferencia de GPT, ULMFiT, ELMo, BERT y sus sucesores. Utiliza el corpus de código abierto Colossal Clean Crawled Corpus (C4) como conjunto de datos de preentrenamiento. El C4 estándar para inglés es un conjunto de datos de 800 GB basado en el conjunto de datos Common Crawl original. T5 replantea todas las tareas de PLN en un formato unificado de texto a texto en el que la entrada y la salida son siempre cadenas de texto, a diferencia de los modelos de tipo BERT, que sólo pueden dar como salida una etiqueta de clase o una extensión de la entrada. El modelo T5 básico tiene unos 220 millones de parámetros en total.

 

Familia GPT

OpenAI, una empresa de investigación y despliegue de IA, tiene como misión "garantizar que la inteligencia general artificial (AGI) beneficie a toda la humanidad". Por supuesto, aún no ha logrado la AGI, y algunos investigadores de IA, como el pionero del aprendizaje automático Yann LeCun, de Meta-FAIR, creen que el enfoque actual de OpenAI hacia la AGI es un callejón sin salida.

OpenAI es responsable de la familia GPT de modelos lingüísticos. Aquí hay un vistazo rápido a toda la familia GPT y su evolución desde 2018. (Ten en cuenta que toda la familia GPT se basa en la arquitectura de red neuronal Transformer de Google, que es legítima porque Google abrió el código de Transformer).

GPT (Generative Pretrained Transformer) es un modelo de 2018 de OpenAI que utiliza unos 117 millones de parámetros. GPT es un transformador unidireccional preentrenado en el Toronto Book Corpus, y fue entrenado con un objetivo de modelado de lenguaje causal (CLM), lo que significa que fue entrenado para predecir el siguiente token en una secuencia.

GPT-2 es una ampliación directa de GPT para 2019 con 1.500 millones de parámetros, entrenada en un conjunto de datos de 8 millones de páginas web que abarcan ~40 GB de datos de texto. OpenAI restringió originalmente el acceso a GPT-2 porque era "demasiado bueno" y daría lugar a "noticias falsas". La empresa acabó cediendo, aunque los posibles problemas sociales se agravaron con la publicación de GPT-3.

GPT-3 es un modelo lingüístico autorregresivo 2020 con 175.000 millones de parámetros, entrenado con una combinación de una versión filtrada de Common Crawl, WebText2, Books1, Books2 y Wikipedia en inglés. La red neuronal utilizada en GPT-3 es similar a la de GPT-2, con un par de bloques adicionales.

El mayor inconveniente de GPT-3 es que tiende a "alucinar", es decir, que inventa hechos sin base discernible. GPT-3.5 y GPT-4 tienen el mismo problema, aunque en menor medida.

CODEX es un descendiente de GPT-3 de 2021 que se perfeccionó para la generación de código en 54 millones de repositorios de código abierto de GitHub. Es el modelo utilizado en GitHub Copilot.

GPT-3.5 es un conjunto de actualizaciones de 2022 de GPT-3 y CODEX. El modelo GPT-3.5 Turbo está optimizado para el chat, pero también funciona bien para las tareas de finalización tradicionales.

GPT-4 es un gran modelo multimodal de 2023 (acepta entradas de imagen y texto, y emite salidas de texto) que, según OpenAI, muestra un rendimiento de nivel humano en algunas pruebas profesionales y académicas. GPT-4 superó a GPT-3.5 en varios exámenes simulados, como el Uniform Bar Exam, el LSAT, el GRE y varios exámenes de asignaturas AP.

Nótese que el rendimiento de GPT-3.5 y GPT-4 ha cambiado con el tiempo. Un artículo de Stanford de julio de 2023 identificó varias tareas, incluida la identificación de números primos, en las que el comportamiento varió mucho entre marzo de 2023 y junio de 2023.

  • Preocupación por los sesgos del modelo GPT-4: Es muy preocupante que OpenAI no haya explicado cómo se entrenó GPT-4; la empresa dice que es por razones competitivas, lo que tiene cierto sentido dada la competencia entre Microsoft (que ha financiado a OpenAI con 13.000 millones de dólares hasta la fecha) y Google. Aun así, no conocer los sesgos del corpus de entrenamiento significa que no conocemos los sesgos del modelo. La opinión de Emily Bender sobre GPT-4 (publicada en Mastodon el 16 de marzo de 2023) es que "GPT-4 debería considerarse basura tóxica hasta que #OpenAI sea 'abierta' sobre sus datos de entrenamiento, arquitectura del modelo, etc.".

ChatGPT y BingGPT son chatbots que originalmente se basaban en GPT-3.5 Turbo y en marzo de 2023 se actualizaron para utilizar GPT-4. Actualmente, para acceder a la versión de ChatGPT basada en GPT-4, es necesario suscribirse a ChatGPT Plus. La versión estándar de ChatGPT, basada en GPT-3.5, se entrenó con datos que finalizaron en septiembre de 2021.

BingGPT, también conocido como "El nuevo Bing", al que se puede acceder desde el navegador Microsoft Edge, también se entrenó con datos que finalizaban en 2021. Cuando se le pregunta, el bot afirma que está constantemente aprendiendo y actualizando sus conocimientos con nueva información de la web.

A principios de marzo de 2023, la profesora Pascale Fung, del Centro de Investigación de Inteligencia Artificial de la Universidad de Ciencia y Tecnología de Hong Kong, dio una charla sobre la evaluación de ChatGPT. Merece la pena dedicarle una hora.

 

LaMDA

LaMDA (Language Model for Dialogue Applications), la "revolucionaria" tecnología de conversación de Google para 2021, es un modelo de lenguaje basado en Transformer, entrenado en el diálogo y perfeccionado para mejorar significativamente la sensibilidad y especificidad de sus respuestas. Uno de los puntos fuertes de LaMDA es que es capaz de manejar la desviación temática habitual en las conversaciones humanas.

 

PaLM

PaLM (Pathways Language Model) es un modelo Transformer de 2022 de Google Research con 540.000 millones de parámetros, entrenado con el sistema Pathways. PaLM se entrenó utilizando una combinación de conjuntos de datos en inglés y multilingües que incluyen documentos web de alta calidad, libros, Wikipedia, conversaciones y código de GitHub. Google también creó un vocabulario "sin pérdidas" que conserva todos los espacios en blanco (especialmente importante para el código), divide los caracteres Unicode fuera de vocabulario en bytes y divide los números en tokens individuales, uno por cada dígito.

PaLM-Coder es una versión de PaLM 540B ajustada a un conjunto de datos de código Python.

 

PaLM-E

PaLM-E es un modelo de lenguaje multimodal encarnado (para robótica) de 2023 de Google. Los investigadores partieron de PaLM y lo "encarnaron" (la E de PaLM-E), complementándolo con datos de sensores del agente robótico. PaLM-E es también un modelo general de visión y lenguaje; además de PaLM, incorpora el modelo de visión ViT-22B.

 

Bard

Bard es un servicio de IA conversacional de Google de 2023 basado en LaMDA. Google Bard se lanzó el 21 de marzo de 2023 y estuvo disponible el 10 de mayo de 2023.

Bard se ha actualizado varias veces desde su lanzamiento. En abril de 2023 adquirió la capacidad de generar código en 20 lenguajes de programación. En julio de 2023 fue compatible con 40 idiomas humanos, incorporó Google Lens y añadió funciones de conversión de texto a voz en más de 40 idiomas humanos.

 

LLaMA

LLaMA (Large Language Model Meta AI) es un gran modelo lingüístico de 65.000 millones de parámetros "en bruto" lanzado por Meta AI (antes conocida como Meta-FAIR) en febrero de 2023. Según Meta: "El entrenamiento de modelos básicos más pequeños como LLaMA es deseable en el espacio de los grandes modelos lingüísticos porque requiere mucha menos potencia y recursos informáticos para probar nuevos enfoques, validar el trabajo de otros y explorar nuevos casos de uso. Los modelos de base se entrenan con un gran conjunto de datos sin etiquetar, lo que los hace ideales para su ajuste fino en diversas tareas".

LLaMA se publicó en varios tamaños, junto con una ficha del modelo que detalla cómo se construyó. Originalmente, había que solicitar los puntos de comprobación y el tokenizador, pero ya están disponibles: alguien publicó un torrent descargable en 4chan y obtuvo los modelos mediante una solicitud, según Yann LeCun de Meta AI.

 

Llama 2

Llama 2 es la nueva generación del gran modelo lingüístico de Meta AI, entrenado entre enero y julio de 2023 con un 40% más de datos (2 billones de tokens de fuentes públicas) que LLaMA 1 y con el doble de longitud de contexto (4096). Llama 2 se presenta en una gama de tamaños de parámetros -7.000 millones, 13.000 millones y 70.000 millones-, así como en variaciones preentrenadas y ajustadas. Meta AI llama a Llama 2 código abierto, pero hay quien no está de acuerdo, dado que incluye restricciones sobre el uso aceptable. Existe una licencia comercial, además de la comunitaria.

Llama 2 es un modelo de lenguaje autorregresivo que utiliza una arquitectura Transformer optimizada. Las versiones ajustadas utilizan el ajuste fino supervisado (SFT) y el aprendizaje por refuerzo con retroalimentación humana (RLHF) para alinearse con las preferencias humanas de utilidad y seguridad. Por el momento, Llama 2 sólo está disponible en inglés. La ficha del modelo incluye resultados de pruebas comparativas y estadísticas sobre la huella de carbono. El documento de investigación, Llama 2: Open Foundation and Fine-Tuned Chat Models, ofrece más detalles.

 

Claude 2

El Claude 2 de Anthropic, lanzado en julio de 2023, acepta hasta 100.000 tokens (unas 70.000 palabras) en un solo prompt, y puede generar historias de hasta unos pocos miles de tokens. Claude puede editar, reescribir, resumir, clasificar, extraer datos estructurados, hacer preguntas y respuestas basadas en el contenido, y mucho más. Está más entrenado en inglés, pero también se desenvuelve bien en una serie de otros idiomas comunes, y aún tiene cierta capacidad para comunicarse en otros menos comunes. Claude también tiene amplios conocimientos de lenguajes de programación.

Claude fue constitucionalmente entrenado para ser útil, honesto e inofensivo (HHH), y ampliamente rediseñado para ser más inofensivo y más difícil de incitar a producir resultados ofensivos o peligrosos. No se entrena con tus datos ni consulta Internet en busca de respuestas, aunque puedes proporcionar a Claude texto de Internet y pedirle que realice tareas con ese contenido. Claude está disponible para usuarios de EE.UU. y el Reino Unido en versión beta gratuita, y ha sido adoptado por socios comerciales como Jasper (una plataforma de IA generativa), Sourcegraph Cody (una plataforma de IA de código) y Amazon Bedrock.

 

Conclusión

Como hemos visto, varias empresas están desarrollando activamente grandes modelos lingüísticos y OpenAI, Google AI, Meta AI y Anthropic lanzan nuevas versiones más o menos una vez al mes. Aunque ninguno de estos LLM alcanza la verdadera inteligencia general artificial (AGI), los nuevos modelos tienden a mejorar los anteriores. Aun así, la mayoría de los LLM son propensos a las alucinaciones y otras formas de descarrilarse, y en algunos casos pueden producir respuestas inexactas, sesgadas u otras objetables a las indicaciones del usuario. En otras palabras, sólo debe utilizarlos si puede verificar que sus resultados son correctos.



Contenido Patrocinado

Forma parte de nuestra comunidad

 

¿Te interesan nuestras conferencias?

 

 
Cobertura de nuestros encuentros
 
 
 
 
Lee aquí nuestra revista de canal

DealerWorld Digital