强化学习模型或面临重构：MIT揭示大脑多巴胺信号新机制

（来源：MIT News）

多巴胺是一种在大脑中起着重要作用的信号分子，影响着我们的情绪、动机、运动等多个方面。这种神经递质对基于奖励的学习至关重要，然而这一功能在许多精神疾病中可能会受到干扰，例如情绪障碍和成瘾等。

近期，由 MIT 教授 Ann Graybiel 领导的研究团队发现了一些意想不到的多巴胺信号模式，表明神经科学家可能需要重新审视他们关于大脑强化学习机制的理解。该团队的研究成果已发表在 Nature Communication 杂志上。

多巴胺在帮助人类和其他动物学习如何识别与正负结果相关的线索和行为方面发挥着关键作用。一个经典的例子就是伊万·巴甫洛夫训练狗通过铃声预测食物的到来。Graybiel 教授，同时也是 MIT 麦戈文研究所的研究员，解释道：根据强化学习的传统模型，当动物接收到与奖励相关的线索时，产生多巴胺的神经元最初会对奖励本身做出反应。随着动物逐渐学会了线索与奖励之间的关联，多巴胺的释放时机会发生变化，最终与线索本身（而非奖励）紧密相连。

然而，随着新技术的出现，研究人员能够更精确地分析大脑中多巴胺释放的时机和位置。Graybiel 的团队发现，传统模型并不能完全解释多巴胺的信号模式。早在十多年前，实验室的研究生 Mark Howe 就注意到，与奖励相关的多巴胺信号并非在奖励到来的一刹那才释放，而是在奖励之前，随着老鼠逐渐接近奖励，信号逐步增强。研究人员推测，多巴胺可能是在向大脑其他区域传递奖励接近的信号。Graybiel 表示：“这一发现完全颠覆了传统的经典模型。”

多巴胺动态变化

在其他神经科学家探索如何将这些新发现融入强化学习模型时，Graybiel 教授和博士后研究员 Min Jung Kim 决定更深入地研究多巴胺的动态变化。Graybiel 表示：“我们想，既然如此，不如从最基本的实验做起来重新审视这一问题。”

他们的实验采用了新型的灵敏多巴胺传感器，追踪小鼠大脑中多巴胺的释放情况。在实验中，小鼠学习将蓝光与水奖励建立关联。研究团队特别关注大脑基底神经节中的纹状体区域，这一部分通过释放多巴胺，参与与奖励学习等多种神经回路的调控。

研究发现，多巴胺的释放时机在纹状体的不同部位有所差异。然而，Graybiel 团队并未在任何地方观察到经典强化学习模型所预测的关键变化，即多巴胺释放时机从奖励时间到线索时间的转变。

在他们的一个简单实验中，每当小鼠看到灯光时，都会得到奖励。在这种情境下，纹状体外侧部分在小鼠获得水奖励时，会可靠地释放多巴胺。即便小鼠已经学会了将灯光与奖励联系起来，这种对奖励的强烈反应依然没有减弱。相反，在纹状体的内侧部分，奖励出现时并未释放多巴胺。尽管在学习初期，当小鼠看到灯光时，神经元会发放多巴胺信号，这与标准模型的预测相悖——按照模型，奖励时才会产生多巴胺反应。Graybiel 表示：“这令人非常困惑，因为根据理论，多巴胺应该在奖励本身出现时才有所反应。”

当研究团队将第二盏灯引入实验时，结果更加出人意料。第二盏灯的位置不同，并不代表奖励。小鼠只能将两盏灯中的一盏作为线索，而只有第一盏灯会与水奖励相配对。

在这些实验中，当小鼠看到与奖励相关的灯光时，纹状体中央内侧的多巴胺释放显著增加，且持续到奖励出现。与此同时，在外侧部分，尽管没有直接与奖励关联，仍然保持着持续的多巴胺释放，并维持在一个平台期。

Graybiel 对实验中引入第二盏灯后多巴胺反应的变化感到非常惊讶。尽管每次小鼠只能看到一盏灯，但每当另一盏灯在不同的实验条件下出现时，奖励灯的多巴胺反应发生了不同的变化。

她说：“这必然涉及到一种认知因素，大脑似乎希望保留线索出现的信息一段时间。”研究团队的实验表明，纹状体的细胞通过持续的多巴胺释放来完成这一过程，这种持续释放贯穿了光亮与奖励之间的短暂延迟。Graybiel 指出，虽然这种持续的多巴胺释放在过去并未与强化学习相关联，但它与大脑其他区域、特别是与工作记忆相关的持续信号非常相似。

重新思考强化学习

Graybiel 表示：“我们的许多研究结果并没有完全符合传统、经典的强化学习模型。”这表明，神经科学家对这一过程的理解将在脑科学不断发展的过程中逐步演变。

“但这只是我们不断完善理解的一步，目的是重新构建大脑基底神经节如何影响运动、思维和情感的模型。”她补充道，“这些新模型需要纳入强化学习系统中的新发现，尤其是关于这些平台期的部分，同时它们也可能为我们提供关于单一经验如何在大脑与强化相关区域中持续存在的深刻洞见。”

这项研究得到了美国国立卫生研究院、William N. and Bernice E. Bumpus 基金会、Saks Kavanaugh 基金会、CHDI 基金会、Joan and Jim Schattinge、Lisa Yang 的资助。

原文链接：

https://news.mit.edu/2024/revisiting-reinforcement-learning-1210

玩酷网

强化学习模型或面临重构：MIT揭示大脑多巴胺信号新机制

新兴科技是个圈