En los últimos años, el rendimiento de los grandes modelos de lenguaje se ha evaluado principalmente en función del número de parámetros utilizados durante el entrenamiento. Se creía que a medida que se incorporaban más parámetros, los modelos mejoraban su capacidad para realizar tareas y resolver problemas.
Sin embargo, se están observando indicios de un importante cambio de paradigma en el que el volumen de parámetros no es tan crucial como se pensaba. Gigantes como Google y OpenAI parecen estar siguiendo este nuevo enfoque.
Google ha presentado recientemente su modelo de lenguaje PaLM 2, destinado a competir con GPT-4 de OpenAI. A diferencia de su predecesor, PaLM 2 ha sido entrenado con millones de parámetros menos y aún así muestra un rendimiento superior. El nuevo modelo tiene aproximadamente 340 mil millones de parámetros, en comparación con los 540 mil millones de su versión anterior.
Google ha utilizado una técnica llamada “escalado óptimo de cómputo” para mejorar el rendimiento general del modelo, incluyendo la utilización de menos parámetros y un menor costo de entrenamiento. Sin embargo, Google ha compensado la reducción de parámetros aumentando significativamente el tamaño del conjunto de datos utilizado para el entrenamiento. PaLM 2 ha sido entrenado con cinco veces más datos que su predecesor, lo que se traduce en 3,6 billones de tokens.
Este cambio de paradigma también se observa en OpenAI. Su CEO, Sam Altman, ha señalado que la obsesión por aumentar la cantidad de parámetros en los modelos le recuerda a la carrera por aumentar la velocidad de reloj de los procesadores en la década de 1990. Altman enfatiza que lo realmente importante son las capacidades de los modelos, no la cantidad de parámetros que poseen.
En resumen, tanto Google como OpenAI están explorando la posibilidad de lograr modelos de lenguaje más efectivos utilizando menos parámetros y aumentando la cantidad de datos de entrenamiento. Este cambio de paradigma podría impulsar avances más rápidos y significativos en diversos campos de la inteligencia artificial.