TRELLIS.2

Proyecto open-source de Microsoft Research para generar activos 3D a partir de una sola imagen, produciendo mallas con texturas y materiales PBR (p. ej., base color, roughness, metallic y opacidad) a alta resolución. Utiliza una representación 3D nativa O-Voxel (sparse y "field-free") y un VAE 3D con compresión espacial 16× para obtener latentes estructurados compactos, con foco en fidelidad y eficiencia de inferencia; incluye consideraciones de Responsible AI y un aviso de uso orientado a investigación/academia.

Sitio web

descripcion

TRELLIS.2 es un proyecto open-source de Microsoft Research para generacin de activos 3D a partir de una imagen (image-to-3D). Segn la pgina oficial del proyecto, se trata de un modelo de 4B parmetros capaz de producir activos 3D con texturas y materiales PBR (p. ej., color base, roughness, metallic y opacidad) hasta resoluciones de 15363. Se apoya en una representacin nativa 3D denominada O-Voxel (estructura sparse y "field-free") y en una VAE 3D con compresin espacial 16 para obtener latentes estructurados compactos, buscando alta fidelidad y eficiencia en inferencia. Incluye consideraciones de Responsible AI y una advertencia de uso acadmico/investigacin en los materiales del proyecto.

aplicacion profesional

Sirve como base tcnica para prototipar y evaluar flujos de generacin 3D a partir de una sola imagen dentro de equipos de I+D, laboratorios de visin por computador/CG, y pipelines internos de creacin de contenido donde se requiera automatizacin de activos 3D con materiales PBR. Casos de uso tpicos: (1) generacin rpida de mallas texturizadas (exportables a formatos como GLB segn el ejemplo del repositorio) para previsualizacin en diseo, VFX o videojuegos; (2) reconstruccin 3D con atributos de material para evaluacin de relighting/render PBR; (3) investigacin en representaciones 3D (O-Voxel) y latentes compactos para escalado de modelos generativos; (4) pruebas de rendimiento (latencia/VRAM) en infraestructura GPU. Segn la documentacin del repositorio, el cdigo est probado en Linux y requiere GPU NVIDIA con al menos 24GB (validado en A100/H100), por lo que su uso operativo en empresa est condicionado por infraestructura y por las condiciones de uso indicadas en la pgina del proyecto (enfoque de investigacin/academia).

precio

No disponible como producto comercial en la pgina del proyecto. El cdigo del repositorio est publicado con licencia MIT. La pgina del proyecto incluye un "Material Disclaimer" indicando que los materiales se proporcionan slo para fines acadmicos y de investigacin y no estn destinados a explotacin/comercializacin. Los costes prcticos se asocian a infraestructura (GPU, almacenamiento) y dependencias/operacin.

puntos a favor

Modelo image-to-3D de gran escala (4B parmetros) orientado a generar activos 3D con texturas y materiales PBR (incluyendo opacidad/alpha) segn la pgina oficial del proyecto.
Representacin O-Voxel "field-free" y sparse orientada a manejar topologas complejas (superficies abiertas, no-manifold e interiores) sin las limitaciones tpicas de enfoques basados en iso-superficies, segn la pgina del proyecto y el artculo.
Latentes compactos mediante VAE 3D con compresin espacial 16, pensado para eficiencia y escalabilidad, segn la descripcin tcnica del proyecto.
Documentacin tcnica y cdigo pblico en GitHub, con ejemplos de inferencia y demo web (app.py) para evaluar rpidamente la integracin y la calidad del output, segn el repositorio oficial.
Incluye referencia a demo en Hugging Face (segn la pgina del proyecto) y paper accesible (arXiv), lo que facilita validacin tcnica y reproducibilidad en entornos de investigacin.

puntos en contra

Restricciones de uso: la pgina oficial incluye una advertencia de que los materiales se proporcionan slo para fines acadmicos/investigacin y no para uso comercial, lo que limita su adopcin directa en produccin empresarial sin revisin legal.
Requisitos de infraestructura: el repositorio indica que est probado slo en Linux y requiere GPU NVIDIA con al menos 24GB (validado en A100/H100), lo que eleva barreras de adopcin y costes de ejecucin.
Cadena de dependencias compleja: el repositorio detalla instalacin con mltiples componentes CUDA/paquetes especializados (p. ej., backends de atencin y libreras para render/texturizado), lo que puede aumentar esfuerzo de integracin/DevOps.
Licencias de dependencias: el repositorio advierte que algunas dependencias (p. ej., nvdiffrast/nvdiffrec) se rigen por trminos de licencia propios, requiriendo due diligence adicional para uso interno.
Rendimiento reportado (p. ej., tiempos en H100) puede no ser representativo en GPUs de menor gama; la documentacin no garantiza el mismo throughput/latencia fuera del hardware probado.

enlaces oficiales

otros enlaces interes

https://ar5iv.labs.arxiv.org/html/2512.14692

Volver a todas las herramientas