在线训练大语言模型（LLM）强化学习环境搭建往往涉及复杂的组件组合，环境构建、评

在线训练大语言模型（LLM）强化学习环境搭建往往涉及复杂的组件组合，环境构建、评估、工具调用、训练等环节分散且难以整合。

Verifiers 是一个开源的模块化环境库，专为 LLM 强化学习设计，集成了环境创建、评估、Rollout 逻辑和训练工具，支持与 OpenAI 兼容模型端点无缝对接。

不仅能直接做模型评估和合成数据生成，还内置了异步 GRPO 训练器，支持大规模多GPU训练，方便研究者和开发者快速搭建高效的 LLM RL 训练流水线。

GitHub：github.com/PrimeIntellect-ai/verifiers

主要功能：

- 模块化环境组件，支持自定义环境和多轮对话交互；

- 灵活的评估机制，支持多种奖励函数和格式解析器；

- 原生支持单回合、多回合及工具调用环境；

- 内置异步GRPO训练器，兼容Accelerate/DeepSpeed多GPU训练；

- 支持OpenAI风格推理接口，方便接入各类模型服务；

- 提供命令行工具快速评测、环境安装和训练管理。

适用于研究人员、开发者和企业用户，支持CPU和GPU环境，本地和云端均可使用，助力构建智能、可训练的语言模型代理和评测平台。

玩酷网