吴恩达智能体补充说明

原文：https://www.deeplearning.ai/the-batch/issue-242/

亲爱的朋友们，上周，我描述了，我相信它们将在今年推动重大进展：反思、工具使用、规划和多智能体协作。代理工作流不是直接LLM生成最终输出，而是多次提示，LLM使其有机会逐步构建更高质量的输出。在这封信中，我想讨论一下反思。对于实现速度相对较快的设计模式，我已经看到它带来了令人惊讶的性能提升。你可能有过这样的经历：提示 ChatGPT/Claude/Gemini，收到不满意的输出，提供关键反馈以帮助LLM改善其响应，然后得到更好的响应。如果您自动执行提供关键反馈的步骤，以便模型自动批评自己的输出并改进其响应，会怎么样？这是反思的关键所在。以要求 an LLM 编写代码为任务。我们可以提示它直接生成所需的代码来执行一些任务 X。之后，我们可以提示它反思自己的输出，可能如下：

下面是用于任务 X 的代码：[以前生成的代码]仔细检查代码的正确性、风格和效率，并就如何改进它提出建设性的批评。有时这会导致LLM发现问题并提出建设性的建议。接下来，我们可以提示上下文，LLM包括（i）先前生成的代码和（ii）建设性反馈，以及（iii）要求它使用反馈重写代码。这可以带来更好的响应。重复批评/重写过程可能会产生进一步的改进。这种自我反思过程允许发现LLM差距并改进其在各种任务上的输出，包括生成代码、编写文本和回答问题。

我们可以通过提供有助于评估其产出LLM的工具来超越自我反省;例如，通过一些单元测试运行其代码，以检查它是否在测试用例上生成正确的结果，或者搜索 Web 以仔细检查文本输出。然后，它可以反思发现的任何错误并提出改进的想法。

此外，我们可以使用多智能体框架实现 Reflection。我发现创建两个不同的智能体很方便，一个提示生成良好的输出，另一个提示对第一个智能体的输出提出建设性的批评。由此产生的两个代理之间的讨论导致了改进的响应。

反射是一种相对基本的代理工作流类型，但我很高兴它在一些情况下改善了我的应用程序的结果。我希望你能在自己的工作中尝试一下。如果你有兴趣了解更多关于反思的知识，我推荐这些论文：

“” Madaan et al., 2023“,” Shinn et al., 2023“,” Gou et al., 2024

我将在以后的信件中讨论其他代理设计模式。

继续学习！

玩酷网

架构即是人生