SAM 3D revoluciona la visión por computadora: Meta convierte fotos en modelos 3D en segundos

Meta lanza SAM 3D con dos modelos —Objects y Body— y abre un Playground para que cualquiera pruebe reconstrucción 3D desde una sola imagen. La compañía comparte checkpoints, código y grandes conjuntos de datos: la apuesta es acelerar robótica, AR/VR, videojuegos y comercio electrónico.

Meta presentó SAM 3D, una ampliación de su colección Segment Anything que incluye dos modelos de vanguardia: SAM 3D Objects (reconstrucción de objetos y escenas) y SAM 3D Body (estimación de pose y forma humana). Ambos permiten transformar imágenes 2D estáticas en reconstrucciones 3D detalladas, y la compañía anuncia que pondrá a disposición checkpoints, código de inferencia, un nuevo benchmark y datos de entrenamiento para que la comunidad los use.

Para facilitar el acceso, Meta lanzó el Segment Anything Playground, una plataforma donde los usuarios pueden subir sus propias fotos, seleccionar objetos o personas y generar modelos 3D casi en tiempo real. La empresa ya está integrando SAM 3D y SAM 3 en productos: la función View in Room de Facebook Marketplace usa estas capacidades para que los compradores visualicen cómo queda un mueble o una lámpara en su espacio antes de comprar.

La innovación técnica de SAM 3D se apoya en una estrategia de datos y anotación masiva. Meta explica que su “data engine” anotó casi 1 millón de imágenes distintas y generó aproximadamente 3,14 millones de mallas en un proceso donde modelos y anotadores humanos trabajan en bucle para crear 3D verificado del mundo físico. Esa escala permite post-entrenamientos que cierran la brecha entre modelos entrenados en activos sintéticos y el caótico mundo real.

En rendimiento, SAM 3D Objects muestra una mejora sustancial frente a métodos previos: en pruebas de preferencia humana logra al menos una ratio de 5:1 frente a otros líderes, y puede devolver reconstrucciones texturizadas completas “en cuestión de segundos” gracias a optimizaciones de ingeniería como atajos por difusión, lo que habilita aplicaciones casi en tiempo real para robótica o escenarios interactivos. Al mismo tiempo, la compañía reconoce limitaciones actuales: resolución moderada que afecta detalles finos y la incapacidad actual para razonar sobre múltiples objetos en conjunto (predice objetos uno por uno).

En el terreno del cuerpo humano, SAM 3D Body incorpora un formato de malla paramétrica llamado Meta Momentum Human Rig (MHR) y ha sido entrenado con un conjunto de aproximadamente 8 millones de imágenes que combinan fotos diversas, videos multicámara y datos sintéticos de alta calidad. El modelo es “promptable”: admite máscaras de segmentación y puntos clave 2D para guiar la reconstrucción y mejorar la alineación con la evidencia visual. Meta además liberará MHR bajo una licencia comercial permisiva, facilitando usos en avatares, medicina deportiva y producción de contenidos.

Meta destaca casos de uso inmediatos y sectoriales: videojuegos y cine (generación de assets), robótica (percepción 3D para manipulación) y comercio online (visualización previa de productos). La apertura del código, los checkpoints y el nuevo dataset SA-3DAO (SAM 3D Artist Objects) —diseñado para evaluar reconstrucción 3D en imágenes del mundo real— busca atraer a investigadores y creadores para avanzar en escenarios menos controlados que los benchmarks sintéticos tradicionales.

No obstante, las limitaciones técnicas y los riesgos de adopción también están presentes: la resolución actual limita la fidelidad en objetos complejos y la modelización humana no incorpora todavía interacciones multi-persona ni razonamiento físico sobre contacto o penetración entre objetos. Meta plantea como próximos pasos mejorar resolución, soportar razonamiento conjunto sobre múltiples objetos y avanzar en estimación fina de manos y detalles finos.

SAM 3D representa un paso relevante hacia la percepción 3D accesible desde imágenes convencionales. Al combinar modelos state-of-the-art, datos a escala (millones de imágenes y mallas), herramientas públicas (Playground) y aplicaciones prácticas (Marketplace), Meta busca mover el 3D desde nichos técnicos hacia flujos de trabajo creativos e industriales.

Ahora queda por ver hasta qué punto la comunidad explotará los checkpoint y datasets liberados para mejorar resolución y manejo de escenas complejas —y cómo evolucionará el debate sobre propiedad de datos, ética y calidad en contenidos generados a partir de fotografías reales.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

WP to LinkedIn Auto Publish Powered By : XYZScripts.com