Con un seed de U$S 2.000 millones y una valuación de alrededor de U$S 10–12.000 millones, la startup de Mira Murati presenta un primer hallazgo técnico en su blog Connectionism: cambiar la orquestación de GPU kernels podría hacer que las respuestas de los modelos sean reproducibles —y eso transformaría cómo se entrenan, auditan y usan los LLM en empresas.
Thinking Machines Lab abrió la caja negra. En su primer post del blog institucional, titulado “Defeating Nondeterminism in LLM Inference”, el investigador Horace He y colaboradores abordan un problema que muchos aceptaban como inevitable: la variabilidad de respuestas cuando se consulta repetidamente el mismo modelo.
El diagnóstico técnico apunta no tanto al modelo en sí, sino a la forma en que los GPU kernels —los pequeños programas que se ejecutan dentro de chips como los de Nvidia— se ensamblan y orquestan durante la inferencia. El equipo sostiene que, al controlar cuidadosamente esa capa, es posible alcanzar respuestas reproducibles.
¿Por qué importa a las empresas? La reproducibilidad no es solo una cuestión académica: para clientes corporativos y científicos, respuestas consistentes facilitan auditoría, depuración, cumplimiento y, sobre todo, permiten que el aprendizaje por refuerzo (RL) funcione mejor.
Como señala el propio Horace He en el post, lograr respuestas reproducibles podría hacer que el proceso de RL “sea más fluido” —una afirmación que, de comprobarse, reduciría el ruido en las señales de recompensa durante el entrenamiento y mejoraría la calidad de modelos adaptados a empresas.
El timing estratégico también llama la atención. Thinking Machines Lab cerró un seed round de U$S 2.000 millones y figura con una valuación que los distintos reportes sitúan entre U$S 10.000 millones y U$S 12.000 millones; la compañía ha reclutado talento procedente de OpenAI y otras instituciones de élite y anunció que su primer producto se presentará en los próximos meses.
Mira Murati ha señalado que ese producto será “útil para investigadores y startups que desarrollan modelos personalizados”, lo que sugiere un enfoque pragmático hacia clientes académicos y empresariales.
Otro elemento central es la promesa de apertura. Thinking Machines ha puesto el trabajo en su blog Connectionism y declara su intención de publicar código y resultados para la comunidad científica: “Creemos que la ciencia es mejor cuando se comparte”, afirmaron en el anuncio del blog, un guiño público a la transparencia investigadora en un momento en que varias grandes firmas han acotado su apertura.
Qué deberían leer los ejecutivos
- Fiabilidad y gobernanza: si la idea es viable, las empresas podrán exigir modelos con trazabilidad y respuestas reproducibles —clave para auditorías, cumplimiento y certificaciones internas.
- Eficiencia en RL y productos a medida: menos ruido en RL significa entrenamientos más eficientes y modelos personalizados con menor coste y mayor predictibilidad.
- Riesgo y due diligence tecnológica: la promesa técnica debe validarse en producción y a escala de hardware (diversos vendors, distintos drivers y entornos). Los equipos de infraestructura deben incorporar controles sobre versiones de kernels, drivers y librerías numéricas.
Thinking Machines Lab ha puesto sobre la mesa un objetivo ambicioso y concreto: convertir un rasgo hoy ampliamente aceptado —la no-determinación de las respuestas— en un problema resoluble mediante ingeniería de inferencia.
Si lo logra, las implicancias para empresas que dependen de modelos conversacionales y sistemas de decisión automatizada serán enormes; si no, la iniciativa seguirá siendo un avance teórico de alto interés.
En cualquier caso, para ejecutivos de tecnología y producto la recomendación es clara: seguir de cerca los resultados de Connectionism, evaluar el impacto operativo de la reproducibilidad en sus pipelines y preparar a infraestructura y compliance para auditar no solo pesos y datos, sino la propia capa de inferencia.