斯坦福发布的OctoTools怎么能在多步推理上提升10%？

周末的小聚会上，老李兴奋地跟大伙儿分享他的新项目进展。

他说：“你们知道吗？

我们团队最近用了一种叫OctoTools的新工具，不需要额外的训练，就在多步推理上提升了10%的性能！”那个场景引发了一阵讨论，大家都好奇这究竟是怎样一种神器，能让被认为已经很强大的机器学习模型，有了这么大的进步。

现有方法的局限性

其实，老李的项目之前一直面临一个棘手的问题。

现有的很多方法，要么是需要针对特定任务做大量的预配置，要么是效率不高，导致任务执行时经常出错，计算成本高。

尤其是当面临需要多步骤推理或者使用特定领域知识的时候，更是让人头疼。

想要让系统模型像人一样灵活处理这些复杂任务，目前还挺难的。

大多数的方法，要么依赖于一些已经预先定义好的工具集，比如少量样本提示、思维链推理等，要么就是得通过调用外部工具完成复杂任务。

这些方法虽然在一定场景下有效，但总是显得有些笨拙。

诸如LangChain和AutoGen这样的框架，虽然可以允许使用外部资源，但它们通常也只适用于某些特定的应用场景，而且需要大量的预先设置。

OctoTools框架的核心理念

老李说起这次使用的OctoTools，眼睛里满是兴奋。

原来，斯坦福大学搞出了个开源的智能体框架，名字叫OctoTools。

这个工具的最大特点，就是让大型语言模型（LLMs）在面对复杂任务时，不需要额外的训练和繁琐的配置，就能显著提高执行效率。

OctoTools用的是一种标准化的工具卡，和一个聪明的规划器（planner），再加上一个执行器（executor）。

这样的组合，让它可以轻松应对各种多步骤推理任务，同时还能保持高效率。

框架里面的工具卡片定义了工具的使用元数据，还能在不修改底层框架的情况下，轻松集成到系统中。

规划器负责从宏观和微观两个层面进行规划，确保任务能够高效、精准地执行。

执行器则负责生成可执行的命令，调用工具，并将结果保存在上下文中。

工具卡片（Tool Cards）

老李给大家展示了工具卡片的样子。

每张工具卡片上都有详细的描述，包括工具的名称、输入和输出类型，还有一些使用的建议和注意事项。

例如，图像描述工具会标明“在复杂场景中可能会出错”，而目标检测工具则会注明它在检测对象方面的限制。

这些工具卡片不仅让规划器和执行器知道应该怎么用工具，还能确保集成过程高效且无缝。

新的工具可以随时补充进来，而不会影响框架的其他部分。

工具卡片实现了两个标准功能：execute()和get_metadata()。

前者是封装工具的核心功能，后者则允许规划器和执行器动态评估工具的能力，理解其使用限制，最终的结果以结构化的格式存储。

实验结果

为了验证效果，研究人员在16个不同的任务上测试了OctoTools，其中包括MathVista、MMLU-Pro、MedQA和GAIA-Text等。

结果很振奋：OctoTools的表现，比其他方法的平均准确率高出9.3%。尤其在多步推理和工具使用上，表现极其优异。

值得一提的是，OctoTools的框架在面对各种基线方法，如直接回答问题的零样本、具有思维链功能的连贯推理，和仅使用基础工具没有外部集成的OctoTools基础版，都展示了明显的优势。

甚至是与其他几种常见智能体框架，比如GPT-Functions、LangChain和AutoGen的对比中，OctoTools的表现也是一枝独秀。

尤其在多步骤规划和工具使用的能力上，平均准确率比AutoGen高出10.6%。

在老李的项目团队里，大家已经习惯性地依赖OctoTools来应对各种难题。

听完他的介绍，大家不仅对这款工具的威力赞叹不已，也不禁在思考：在科技飞速发展的今天，我们是否也应该像OctoTools那样，时刻保持学习和创新的能力呢？

技术上的进步固然令人振奋，但最终，真正改变我们的，还是那些不断追求进步的智慧与热情。

这或许才是OctoTools成功背后，更深层次的意义。

玩酷网