在线分子生成模型往往复杂且运算缓慢,难以兼顾生成速度与物理合理性。
TABASCO 是一个快速且简化的分子生成模型项目,专注于提升物理质量的同时,实现了高效的生成速度和参数利用率。
项目亮点:
- 领先的PoseBusters性能表现,生成分子物理合理性显著提升;
- 采样速度提升10倍,训练和推理更高效;
- 采用标准非等变Transformer结构,设计精简且易扩展;
- 支持多GPU训练,配置灵活,适合科研和工业应用;
- 提供公开预训练模型与详细训练、采样脚本,方便快速上手。
GitHub 地址:github.com/carlosinator/tabasco
适合有分子生成需求的AI研究者和药物设计团队,助力快速高质量分子设计!
详细论文:arxiv.org/pdf/2507.00899
主要功能:
- 分子生成视作序列建模,原子类型与坐标联合编码;
- 模块化插值器实现噪声采样与路径创建,训练稳定高效;
- 物理合理性引导采样,保证生成分子化学有效性;
- 轻量级实现,参数量小,易于二次开发和集成;
- 支持多种数据集,GEOM-Drugs、QM9等,训练环境配置简单。
快速启动:
```bash
conda env create -f environment.yaml
conda activate tabasco
python src/train.py experiment=hot_geom trainer=gpu
python src/sample.py --num_mols 1000 --num_steps 100 --checkpoint path/to/model.ckpt --output_path ./output
```
TABASCO —— 高速、简洁且物理可信赖的分子生成新利器。