Inicio » Ciencias » Tiempo Récord: desarrollan modelo de IA de razonamiento por menos de U$S 50

Tiempo Récord: desarrollan modelo de IA de razonamiento por menos de U$S 50

Un equipo de las universidades de Stanford y Washington ha creado ‘s1’, un modelo de inteligencia artificial que rivaliza con los de OpenAI, entrenado en solo 26 minutos y con una inversión inferior a U$S 50.

En un avance significativo para la inteligencia artificial, investigadores de las universidades de Stanford y Washington han desarrollado un modelo de razonamiento denominado «s1».

Este modelo fue entrenado en apenas 26 minutos, con un costo total inferior a U$S 50, desafiando la noción de que la creación de modelos de IA avanzados requiere inversiones multimillonarias.

El equipo utilizó una técnica conocida como destilación, que implica refinar un modelo más pequeño utilizando las respuestas de uno más grande.

En este caso, ‘s1’ se basó en Qwen2.5, un modelo de código abierto de Alibaba Cloud, y fue refinado con respuestas del modelo de razonamiento de Google, Gemini 2.0 Flash Thinking Experimental.

Es importante señalar que el uso de las respuestas de Gemini para entrenar otro modelo podría contravenir los términos de servicio de Google, que prohíben el uso de su API para desarrollar modelos que compitan con los suyos.

Inicialmente, los investigadores consideraron un conjunto de datos de 59.000 preguntas para el entrenamiento, pero descubrieron que una muestra más pequeña de solo 1.000 preguntas era igualmente efectiva.

El proceso de entrenamiento se llevó a cabo en 16 GPU Nvidia H100, y se empleó una técnica llamada ‘test-time scaling’, que permite al modelo «pensar» durante más tiempo antes de generar una respuesta. Esta técnica mejora la precisión del razonamiento al alentar al modelo a revisar y corregir sus pasos de razonamiento.

Los resultados fueron notables: ‘s1’ superó al modelo ‘o1-preview’ de OpenAI en preguntas matemáticas de competencia por hasta un 27%.

Este logro sugiere que es posible desarrollar modelos de IA efectivos sin las enormes inversiones en tiempo y recursos que tradicionalmente se consideran necesarias.

Este desarrollo podría tener implicaciones significativas para la industria de la inteligencia artificial, demostrando que modelos efectivos pueden ser entrenados de manera rentable.

Esto desafía las prácticas actuales de grandes empresas como OpenAI, Microsoft, Meta y Google, que suelen invertir sumas considerables y utilizar extensos recursos de GPU para entrenar sus modelos de IA.

La comunidad científica y tecnológica ha recibido con entusiasmo este avance, ya que abre nuevas posibilidades para la investigación y el desarrollo de modelos de IA más accesibles y sostenibles.

Este enfoque podría democratizar el acceso a tecnologías avanzadas de inteligencia artificial, permitiendo que más instituciones y empresas participen en su desarrollo y aplicación.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

WP to LinkedIn Auto Publish Powered By : XYZScripts.com