谷歌正在使用人工智能与海豚对话

几十年来，科学家们一直被海豚用来交流的复杂声音所吸引。咔哒声、口哨声和突发脉冲是一种远远超出人类理解范围的语言。虽然研究人员已经开发出捕捉和分析这些声音的工具，但真正的挑战在于破译它们的模式并揭示它们的含义。现在，随着人工智能的快速发展，它最终能帮助我们破解密码吗？

谷歌的人工智能研究实验室谷歌DeepMind与佐治亚理工学院的研究人员和野生海豚项目（WDP）的实地研究合作，创建了一个新的人工智能模型DolphinGemma，他们声称可以破译海豚的叫声。它的工作原理是创造合成海豚的声音，并倾听匹配的“回复”。

这一突破性的人工智能研究可以帮助支持理解海豚交流的研究工作，深入了解它们的社会行为、认知能力以及人类和海豚之间有意义互动的潜力。它还可以通过让研究人员识别压力信号和监测环境威胁，在海豚保护工作中发挥关键作用。

DolphinGemma基于谷歌的Gemma框架构建，可作为音频输入、音频输出模型。它使用了WDP的训练数据，WDP在研究野生大西洋斑点海豚方面拥有丰富的经验。凭借数十年的水下录音和详细的行为观察，WDP为海豚交流提供了至关重要的见解，使DolphinGemma能够利用丰富的上下文数据分析声音模式。

DolphinGemma的一个关键组件是SoundStream（声流）标记器，这是一种由DeepMind设计的神经音频编解码器，用于高效压缩和处理音频信号。SoundStream有效地表示和处理海豚声音的复杂声学序列。它将海豚的叫声转换为结构化的格式。

每个声学样本都与个体海豚的身份、生活史和观察到的行为相关联，确保人工智能系统有丰富的数据集可供学习。DolphinGemma的预测能力与人类大型语言模型（LLM）相似，后者预测句子中的下一个单词或符号。

Dolphin Gemma使用400M参数模型，平衡了性能和计算效率。研究人员可以直接从便携式设备上运行该模式。这是一个有用的功能，因为DolphinGEmma可能经常需要部署在高端或专用硬件无法到达的现场研究中。

WDP在本季度开始使用谷歌的Pixel 9智能手机部署DolphinGemma。据谷歌称，研究人员将能够在设备上同时运行人工智能模型和模板匹配算法。

除了分析海豚的叫声，DolphinGemma还与鲸目动物听力增强遥测（CHAT）系统集成，以促进人类和海豚之间的直接互动。它通过将合成口哨与特定对象相关联来实现这一点。CHAT由WDP与佐治亚理工学院合作开发。

DolphinGemma的预测能力集成到CHAT中，有助于为系统增压。它有可能让海豚与人类交流。例如，海豚可以请求物品，研究人员可以相应地做出回应，从而创造出一种基本的双向交流形式。通过改进这项技术，科学家们可能有一天会根据海豚的自然语言结构与它们进行有意义的交流。

谷歌计划将DolphinGemma作为开放模型发布，允许来自世界各地的研究人员使用和调整该模型来研究海豚和其他物种。需要一些微调来建立不同物种发声的模型。

“认识到合作在科学发现中的价值，我们计划在今年夏天将DolphinGemma作为开放模型分享。在接受大西洋斑点海豚声音训练的同时，我们预计它对研究其他鲸目动物物种（如宽吻海豚或旋转海豚）的研究人员具有潜在的实用性。可能需要对不同物种的叫声进行微调，而模型的开放性有助于这种适应。”

海豚被广泛认为是野生动物中最聪明的生物之一，它们的交流系统可能比我们所理解的要复杂得多。如果科学家们发现了高度复杂的声音模式，它可能会重塑我们对他们的智力和互动的看法。

人工智能在帮助保护海洋动物方面发挥了重要作用。罗格斯大学的研究人员开发了一种人工智能工具来预测鲸鱼的栖息地和运动，引导船只穿越大西洋避开它们。随着人工智能变得越来越复杂，我们可以期待它在推进海洋研究和保护海洋生物方面发挥更大的作用。

玩酷网

谷歌正在使用人工智能与海豚对话

拥抱科技有未来