La empresa emergente de inteligencia artificial enfrenta señalamientos por presuntamente utilizar salidas del modelo Gemini de Google en el entrenamiento de su reciente modelo R1-0528, lo que reaviva el debate sobre la ética en el uso de datos generados por IA.
La startup china DeepSeek, conocida por sus modelos de inteligencia artificial de código abierto, se encuentra en el centro de una controversia tras acusaciones de que su último modelo, R1-0528, habría sido entrenado utilizando salidas generadas por el modelo Gemini de Google.
Esta práctica, conocida como «destilación», implica entrenar un modelo utilizando las respuestas de otro, y ha generado preocupaciones sobre la propiedad intelectual y la ética en el desarrollo de IA.
El desarrollador australiano Sam Paech fue uno de los primeros en señalar similitudes entre las respuestas de R1-0528 y Gemini 2.5 Pro. «Si te preguntas por qué el nuevo DeepSeek R1 suena un poco diferente, creo que probablemente cambiaron de entrenar con salidas sintéticas de OpenAI a salidas sintéticas de Gemini», escribió Paech en una publicación en X.
Esta no es la primera vez que DeepSeek enfrenta acusaciones similares. En diciembre pasado, se observó que su modelo V3 a menudo se identificaba como ChatGPT, lo que sugiere que podría haber sido entrenado con registros de chat de OpenAI.
Aunque la destilación es una técnica común en el desarrollo de modelos de IA, empresas como OpenAI prohíben explícitamente en sus términos de servicio el uso de salidas de sus modelos para entrenar competidores. En este contexto, la práctica de DeepSeek podría representar una violación de dichas políticas.
DeepSeek, fundada en 2023 como una escisión del fondo de inversión cuantitativo High-Flyer Capital Management, ha ganado notoriedad por desarrollar modelos de IA eficientes y de código abierto. Su modelo R1-0528 ha sido elogiado por su rendimiento en tareas de razonamiento y codificación, rivalizando con modelos propietarios como Gemini 2.5 Pro de Google y GPT-4 de OpenAI.
Sin embargo, el uso de datos generados por otros modelos plantea preguntas sobre la originalidad y la ética en el entrenamiento de IA. A medida que el contenido generado por IA se vuelve más prevalente en la web, se vuelve cada vez más difícil filtrar estas salidas de los conjuntos de datos de entrenamiento, lo que lleva a una posible «contaminación» de los modelos.
Expertos en IA, como Nathan Lambert del instituto de investigación sin fines de lucro AI2, señalan que no es descabellado pensar que DeepSeek haya utilizado salidas de Gemini en su entrenamiento.
La controversia en torno a DeepSeek destaca la necesidad de establecer normas claras y éticas en el desarrollo de modelos de inteligencia artificial, especialmente en lo que respecta al uso de datos generados por otros modelos. A medida que la industria de la IA continúa evolucionando, será crucial abordar estos desafíos para garantizar un desarrollo responsable y sostenible.