在线训练大语言模型(LLM)强化学习环境搭建往往涉及复杂的组件组合,环境构建、评估、工具调用、训练等环节分散且难以整合。
Verifiers 是一个开源的模块化环境库,专为 LLM 强化学习设计,集成了环境创建、评估、Rollout 逻辑和训练工具,支持与 OpenAI 兼容模型端点无缝对接。
不仅能直接做模型评估和合成数据生成,还内置了异步 GRPO 训练器,支持大规模多GPU训练,方便研究者和开发者快速搭建高效的 LLM RL 训练流水线。
GitHub:github.com/PrimeIntellect-ai/verifiers
主要功能:
- 模块化环境组件,支持自定义环境和多轮对话交互;
- 灵活的评估机制,支持多种奖励函数和格式解析器;
- 原生支持单回合、多回合及工具调用环境;
- 内置异步GRPO训练器,兼容Accelerate/DeepSpeed多GPU训练;
- 支持OpenAI风格推理接口,方便接入各类模型服务;
- 提供命令行工具快速评测、环境安装和训练管理。
适用于研究人员、开发者和企业用户,支持CPU和GPU环境,本地和云端均可使用,助力构建智能、可训练的语言模型代理和评测平台。