TripoSF是什么
TripoSF是VAST推出的新一代3D基础模型,突破传统3D建模在细节、复杂结构和扩展性上的瓶颈。采用SparseFlex表示方法,结合稀疏体素结构,仅在物体表面附近的区域存储和计算体素信息,大幅降低内存占用,支持高分辨率训练和推理。TripoSF引入“视锥体感知的分区体素训练”策略,进一步降低训练开销。实验显示,TripoSF在多个基准测试中表现优异,Chamfer Distance降低约82%,F-score提升约88%。

TripoSF的主要功能
细节捕捉能力:传统3D建模方法在细节捕捉上往往力不从心,TripoSF能捕捉精细的表面细节和微观结构。在多个标准基准测试中,TripoSF实现了约82%的Chamfer Distance降低和约88%的F-score提升。拓扑结构支持:TripoSF原生支持任意拓扑,能自然地表示开放表面和内部结构。使TripoSF在处理如布料、叶片等复杂结构时具有明显优势。计算资源需求:TripoSF通过稀疏体素结构大幅降低了内存占用。使TripoSF在高分辨率建模时更加高效,减少了对计算资源的需求。实时渲染能力:TripoSF的视锥体感知训练策略使它在动态和复杂环境中实现更高适应性。TripoSF可以使用渲染损失进行端到端训练,避免了数据转换(如水密化)导致的细节退化。高分辨率建模:TripoSF能在1024³的高分辨率下进行训练和推理,使TripoSF能生成更加精细和真实的3D模型。TripoSF的技术原理
SparseFlex表示方法:TripoSF的核心是SparseFlex表示方法,借鉴了英伟达Flexicubes的优势,引入了稀疏体素结构。与传统的稠密网格不同,稀疏体素结构仅在物体表面附近的区域存储和计算体素数据,大幅降低了内存占用。使TripoSF能在1024³的高分辨率下进行训练和推理,同时原生支持任意拓扑结构。视锥体感知的分区体素训练策略:策略借鉴了实时渲染中的视锥体剔除思想,在每次训练迭代中,仅激活和处理位于相机视锥体内的SparseFlex体素。有针对性的激活显著降低了训练开销,使高分辨率下的高效训练成为可能。TripoSF变分自编码器(VAE):基于SparseFlex表示和高效的训练策略,VAST构建了TripoSF VAE,形成了一整套完善高效的处理流程。从输入、编码、解码到输出,TripoSF VAE成为TripoSF重建和生成体验向前迈出一大步的重要基础。TripoSF的项目地址
项目官网:https://xianglonghe.github.io/TripoSF/Github仓库:https://github.com/VAST-AI-Research/TripoSFHuggingFace模型库:https://huggingface.co/VAST-AI/TripoSFarXiv技术论文:https://arxiv.org/pdf/2503.21732TripoSF的基准测试效果
Chamfer Distance(CD)降低约82%:Chamfer Distance是衡量3D模型重建质量的指标之一,计算模型表面点与真实模型表面点之间的距离。TripoSF在这一指标上的显著降低表明其在模型细节捕捉上的优越性。