La startup presenta Judge-Image, el primer modelo multimodal de gran lenguaje diseñado para detectar errores y alucinaciones en sistemas de IA, con aplicaciones ya implementadas por la plataforma Etsy.
Patronus AI ha anunciado el lanzamiento de lo que denominan el primer “MLLM-as-a-Judge” (modelo multimodal de gran lenguaje como juez) de la industria, una herramienta innovadora llamada Judge-Image.
Diseñada para evaluar sistemas de IA que interpretan imágenes y generan texto, Judge-Image busca ayudar a los desarrolladores a detectar y mitigar alucinaciones y problemas de fiabilidad en aplicaciones multimodales.
En palabras de Anand Kannappan, cofundador de Patronus AI, dijo que «Estamos muy contentos de anunciar que Etsy es uno de nuestros clientes. Tienen cientos de millones de artículos en su mercado en línea para productos hechos a mano y vintage que la gente está creando en todo el mundo. Una de las cosas para las que su equipo de IA quería aprovechar la IA generativa era la capacidad de autogenerar leyendas de imágenes y asegurarse de que, a medida que se amplía su base de usuarios global, las leyendas que se generan son correctas”.
Esta declaración resalta la importancia de contar con sistemas de evaluación que aseguren la calidad de los textos generados, especialmente en entornos de alto volumen como el de Etsy, una de las plataformas de comercio electrónico líderes en artículos hechos a mano y vintage.
Judge-Image se ha construido sobre el modelo Gemini de Google, tras realizar una investigación exhaustiva que comparó diversas alternativas, incluyendo GPT-4V de OpenAI.
Kannappan explicó que «tendíamos a ver que había una ligera preferencia hacia la egolatría con GPT-4V, mientras que vimos que Géminis estaba menos sesgado en ese sentido y tenía un enfoque más equitativo para poder juzgar diferentes tipos de pares de entrada-salida».
Esta elección se fundamenta en la capacidad del modelo Gemini para ofrecer una distribución de puntuaciones más uniforme y menos sesgada, lo que resulta crucial para evaluar de forma imparcial las respuestas de sistemas de IA que trabajan con imágenes.
Judge-Image provee evaluadores listos para usar, los cuales analizan las descripciones generadas en función de múltiples criterios. Entre estos se encuentran la detección de alucinaciones en los captions, la identificación correcta de objetos primarios y secundarios, la precisión en la localización de dichos objetos y la capacidad de detectar y analizar el texto dentro de las imágenes.
Estas funcionalidades son vitales para garantizar que los sistemas de IA produzcan resultados fiables y que se mantengan alineados con las expectativas tanto de usuarios como de reguladores.
Además del sector del comercio electrónico, Anand Kannappan señaló que las aplicaciones de Judge-Image se extienden a otras áreas.
Anand Kannappan agregó que «en general, los equipos de marketing de todas las empresas buscan ser capaces de crear descripciones y pies de foto escalables en función de los nuevos bloques de diseño, sobre todo de marketing, pero también de producto”.
Asimismo, grandes empresas, como firmas de servicios de documentos y bufetes de abogados, pueden beneficiarse al utilizar herramientas de evaluación de IA para extraer y resumir información de documentos complejos, lo que evidencia la versatilidad de la tecnología.
Patronus AI también aborda el dilema “build-versus-buy” en el desarrollo de herramientas de evaluación para IA.
Según Kannappan, “como hemos trabajado con equipos, mucha gente puede empezar con algo para ver si pueden desarrollar algo internamente, y luego se dan cuenta de que, en primer lugar, no es fundamental para su propuesta de valor o el producto que están desarrollando. Y dos, es un problema muy difícil, tanto desde el punto de vista de la inteligencia artificial como de la infraestructura.”
Esta reflexión subraya que, dado lo complejo que resulta desarrollar internamente evaluadores de sistemas de IA, muchas empresas encuentran más rentable y estratégico adquirir soluciones especializadas que puedan integrarse de manera eficaz en sus flujos de trabajo.
Mirando hacia el futuro, Patronus AI tiene planes de expandir su oferta de evaluación a otros modos, anunciando que próximamente incorporarán la evaluación de audio.
«Estamos entusiasmados porque esta es la siguiente fase de nuestra visión hacia lo multimodal, y específicamente centrada en las imágenes hoy – y luego con el tiempo, estamos entusiasmados con lo que haremos, especialmente con el audio en el futuro.»
Con esta expansión, la compañía persigue su “visión de la investigación hacia una supervisión escalable”, o visión de investigación hacia una supervisión escalable, que permitirá mantener la fiabilidad de sistemas de IA cada vez más complejos y multimodales.
A pesar de utilizar el modelo Gemini de Google como base, Patronus AI se posiciona como complementaria a los grandes proveedores de modelos fundamentales.
“No consideramos que la tecnología que desarrollamos o las soluciones que creamos compitan necesariamente con las empresas fundadoras, sino que son herramientas muy complementarias y potentes que, en última instancia, ayudan a los usuarios a desarrollar mejores sistemas de LLM, en lugar de los propios LLM.”
Esta postura resalta que, en un ecosistema cada vez más saturado de herramientas de IA, la especialización en la evaluación y supervisión es tan crucial como el propio desarrollo de modelos generativos.
Con la implementación de Judge-Image y la visión de expandir hacia otros medios, Patronus AI se posiciona a la vanguardia de la supervisión de la inteligencia artificial, ofreciendo a las empresas una herramienta esencial para asegurar que sus sistemas generativos funcionen de manera honesta y precisa.
En un entorno donde los errores y las alucinaciones pueden tener consecuencias significativas, soluciones como esta se vuelven imprescindibles para mantener la integridad y fiabilidad de las aplicaciones de IA.
El avance hacia una IA más honesta y confiable continúa, y herramientas como Judge-Image de Patronus AI marcarán la pauta en la supervisión y evaluación de sistemas complejos en un mundo cada vez más digital.