Microsoft revoluciona la IA con modelos más pequeños y eficientes
En noviembre de 2023, cuando se lanzó ChatGPT, solo se podía acceder a través de la nube debido al enorme tamaño del modelo detrás de él. Hoy, estoy ejecutando un programa de IA similar en una Macbook Air, y ni siquiera está caliente. Este adelanto muestra cómo los investigadores están refinando rápidamente los modelos de IA para hacerlos más eficientes. También demuestra que aumentar la escala no es la única manera de hacer las máquinas significativamente más inteligentes.
El modelo que ahora impregna mi portátil con la inteligencia de ChatGPT se llama Phi-3-mini. Forma parte de una familia de modelos de IA más pequeños lanzados recientemente por investigadores de Microsoft. Aunque es lo suficientemente compacto para funcionar en un smartphone, lo probé en un portátil y accedí a él desde un iPhone mediante una aplicación llamada Enchanted, que ofrece una interfaz de chat similar a la aplicación oficial de ChatGPT.
En un documento que describe la familia de modelos Phi-3, los investigadores de Microsoft afirman que el modelo que usé se compara favorablemente con GPT-3.5, el modelo de OpenAI detrás del primer lanzamiento de ChatGPT. Esta afirmación se basa en la medición de su rendimiento en varios puntos de referencia estándar de IA diseñados para evaluar el sentido común y el razonamiento. En mis propias pruebas, ciertamente parece igual de capaz.
Esta semana, en su conferencia anual de desarrolladores Build, Microsoft anunció un nuevo modelo “multimodal” Phi-3 capaz de manejar audio, video y texto. Esto ocurrió pocos días después de que OpenAI y Google promocionaran nuevos asistentes de IA radicales basados en modelos multimodales accesibles a través de la nube.
La familia de modelos de IA de Microsoft sugiere que se está volviendo posible construir todo tipo de aplicaciones de IA útiles que no dependan de la nube. Esto podría abrir nuevos casos de uso, permitiéndoles ser más receptivos o privados. (Los algoritmos offline son una pieza clave de la función Recall que Microsoft anunció y que utiliza IA para hacer que todo lo que alguna vez hiciste en tu PC sea buscable).
Pero la familia Phi también revela algo sobre la naturaleza de la IA moderna y quizás cómo puede mejorarse. Sébastien Bubeck, un investigador de Microsoft involucrado en el proyecto, me dice que los modelos se construyeron para probar si ser más selectivo sobre el material de entrenamiento de un sistema de IA podría mejorar sus habilidades sin tener que aumentar drásticamente sus datos de entrenamiento.
Los grandes modelos de lenguaje como GPT-4 de OpenAI o Gemini de Google, que impulsan chatbots y otros servicios, generalmente se alimentan de grandes cantidades de texto extraído de libros, sitios web y cualquier otra fuente accesible. Aunque esto ha planteado cuestiones legales, OpenAI y otros han descubierto que aumentar la cantidad de texto y el poder computacional utilizado para entrenar estos modelos puede desbloquear nuevas capacidades.
Bubeck, quien está interesado en la naturaleza de la “inteligencia” exhibida por los modelos de lenguaje, decidió ver si una curaduría cuidadosa de los datos alimentados a un modelo podría mejorar sus habilidades sin tener que aumentar su tamaño de entrenamiento.
En septiembre pasado, su equipo tomó un modelo aproximadamente un diecisieteavo del tamaño de GPT-3.5 de OpenAI, lo entrenó con datos sintéticos de “calidad de libro de texto” generados por un modelo de IA más grande, incluyendo datos específicos sobre programación. El modelo resultante mostró habilidades sorprendentes para su tamaño. “Para nuestra sorpresa, observamos que podíamos superar a GPT-3.5 en codificación usando esta técnica”, dice. “Eso fue realmente sorprendente para nosotros”.
El grupo de Bubeck en Microsoft ha hecho otros descubrimientos usando este enfoque. Un experimento mostró que alimentar a un modelo extra-pequeño con cuentos infantiles le permitió producir resultados consistentemente coherentes, aunque los programas de IA de este tamaño típicamente producen incoherencias cuando se entrenan de la manera convencional. Una vez más, el resultado sugiere que se puede hacer que el software de IA aparentemente poco potente sea útil si se le educa con el material adecuado.
Bubeck dice que estos resultados parecen indicar que hacer que los sistemas de IA del futuro sean más inteligentes requerirá más que simplemente aumentarlos de tamaño. Y también parece probable que los modelos reducidos como Phi-3 sean una característica importante del futuro de la computación. Ejecutar modelos de IA “localmente” en un smartphone, portátil o PC reduce la latencia o las interrupciones que pueden ocurrir cuando las consultas deben ser procesadas en la nube. Garantiza que tus datos permanezcan en tu dispositivo y podría desbloquear casos de uso completamente nuevos para la IA que no son posibles bajo el modelo centrado en la nube, como las aplicaciones de IA profundamente integradas en el sistema operativo de un dispositivo.
Se espera que Apple revele su tan esperada estrategia de IA en su conferencia WWDC el próximo mes, y ha presumido previamente que su hardware y software personalizados permiten el aprendizaje automático local en sus dispositivos. En lugar de competir directamente con OpenAI y Google en la construcción de modelos de IA en la nube cada vez más grandes, podría pensar de manera diferente al centrarse en reducir la IA para que quepa en los bolsillos de sus clientes.