TRELLIS
项目核心内容总结
TRELLIS 是一个基于扩散模型和变分自编码器(VAE)的3D生成框架,支持通过图像或文本条件生成3D模型。其主要功能包括:
- 图像到3D生成:利用图像条件训练模型,生成高质量3D结构。
- 文本到3D生成:通过文本描述生成3D模型,支持基础、大型及超大型模型(文本条件)。
- 多模态支持:结合图像与文本条件,增强生成多样性。
使用方法
- 训练:通过命令行调用
train.py,指定配置文件(如slat_flow_img_dit_L_64l8p2_fp16.json)和输出目录,支持单节点(自动分配GPU)或多节点分布式训练(需设置节点数、地址及端口)。 - 恢复训练:通过
--load_dir和--ckpt参数加载预训练模型继续训练。
主要特性
- 提供多种预训练模型(如图像条件、文本条件模型),支持不同规模(基础、大型、超大型)。
- 支持灵活的训练配置,包括自动重试、性能分析及多GPU/多节点扩展。
- 使用MIT许可证,部分子模块(如渲染器、Flexicubes)采用其他开源协议。
注意事项
- 训练需指定数据目录,支持多个数据集路径。
- 部分功能依赖CUDA加速的渲染器及Flexicubes库。