Startups como Mechanize y Prime Intellect, junto a gigantes de etiquetado como Surge y Scale AI, compiten para construir los entornos de reinforcement learning (RL) que podrían definir la próxima ola de agentes autónomos; la apuesta incluye ofertas salariales de hasta U$S 500.000, compromisos de gasto de más de U$S 1.000 millones y dudas sobre si la técnica realmente escalará.
Silicon Valley ya no solo compra datos: ahora invierte en mundos. Los llamados RL environments —simulaciones que reproducen navegadores, aplicaciones o flujos de trabajo empresariales para entrenar agentes de IA en tareas de múltiples pasos— se han convertido en la prioridad de laboratorios y fondos.
“Todos los grandes laboratorios de IA están construyendo entornos RL internamente”, advirtió Jennifer Li, socia general en Andreessen Horowitz, en diálogo con TechCrunch, subrayando la complejidad y la demanda emergente del mercado.
Esa urgencia ha dado origen a una nueva clase de empresas. Startups como Mechanize (que ha ofrecido sueldos de U$S 500.000 a ingenieros) y Prime Intellect compiten por convertirse en el «Scale AI» de los entornos; la referencia no es casual: Scale AI llegó a ser un actor clave del ecosistema de etiquetado valorado en torno a U$S 29.000 millones en su era dorada.
Mientras tanto, firmas de etiquetado ya establecidas como Surge y Mercor están redirigiendo esfuerzos hacia estas plataformas interactivas: Surge reportó U$S 1.200 millones en ingresos el año pasado y dice haber observado un “aumento significativo” en la demanda, según su CEO Edwin Chen.
Brendan Foody, CEO de Mercor, resumió la oportunidad: “Pocos entienden cuán grande es realmente la oportunidad en torno a los entornos RL”.
La magnitud financiera ya asoma en conversaciones internas de grandes laboratorios. Según reportes, Anthropic ha considerado destinar más de U$S 1.000 millones en entornos RL durante el próximo año, lo que muestra la intensidad de la apuesta por entrenar agentes que usen múltiples herramientas y tomen decisiones complejas en escenarios realistas.
¿Qué son estos entornos y por qué importan?
Un entorno RL puede simular, por ejemplo, un navegador Chrome y pedir a un agente que compre en Amazon: el agente navega, selecciona y paga; si tiene éxito recibe una “recompensa”. Pero construir una simulación capaz de capturar todos los caminos inesperados (menús desplegables, flujos cambiantes, errores humanos) es mucho más exigente que generar etiquetas estáticas.
Como señala Will Brown de Prime Intellect, “los entornos RL van a ser demasiado grandes para que una sola compañía los domine”, subrayando el componente de infraestructura (y de GPU) que implican.
La carrera también atrae escepticismo. Ross Taylor, exlíder de investigación en Meta, advierte que los entornos son vulnerables al “reward hacking”: “Creo que se está subestimando lo difícil que es escalar entornos”.
Por su parte, el inversor y exinvestigador Andrej Karpathy mostró cautela: “Soy alcista con los entornos y las interacciones agenticas, pero bajista con respecto al reinforcement learning específicamente”, una advertencia sobre límites metodológicos.
Implicaciones estratégicas para ejecutivos
- Probar ahora, escalar con criterio: las empresas deben lanzar pilotos sectoriales (atención al cliente, legal, ventas) con entornos controlados antes de comprometer grandes presupuestos.
- Tener capacidad de cómputo y partners sólidos: entrenar en entornos exige mayor consumo de GPUs y pipelines de validación; alianzas con proveedores de nube y hubs de entornos serán clave.
- Mitigar riesgos de “reward hacking” y gobernanza: incorporar auditoría de recompensas, métricas de robustez y equipos de seguridad AI.
- Evaluar proveedores: decidir entre actores especializados (Mechanize, Prime Intellect) versus jugadores de etiquetado con escala (Surge, Mercor, Scale AI).
En resumen, los entornos RL prometen llevar a los agentes más allá de respuestas puntuales hacia la ejecución autónoma de tareas. Pero la promesa viene con factura: infraestructura, talento (salarios récord) y desafíos técnicos reales. Para los líderes corporativos la pregunta ya no es si invertir en agentes, sino cómo hacerlo de forma pragmática y segura en un mercado donde la infraestructura de entrenamiento podría ser tan estratégica como los propios modelos.

