跨模态通信总丢失语义、产生歧义?LAM-MSC实现四模态统一高效传输

本文的作者为湖南师范大学的江沸菠副教授，彭于波博士，湖南工商大学的董莉副教授，英国布鲁内尔伦敦大学的王可之教授，南京大学的杨鲲教授（欧洲科学院院士），东南大学的潘存华教授、尤肖虎教授（中国科学院院士）。

多模态信号，包括文本、音频、图像和视频等，可以被整合到语义通信中，在语义层面提供低延迟、高质量的沉浸式体验。然而，多模态语义通信面临着数据异构、语义歧义和信号衰落等挑战。AI 大模型，尤其是多模态语言模型和大语言模型的发展，为解决这些问题提供了新思路。

基于此，由湖南师范大学、南京大学和东南大学等机构组成的研究团队提出了基于AI大模型的多模态语义通信（LAM-MSC）框架。

论文题目：Large AI Model Empowered Multimodal Semantic Communications

作者：江沸菠，董莉，彭于波，王可之，杨鲲，潘存华，尤肖虎

来源：IEEE Communications Magazine

论文链接：https://ieeexplore.ieee.org/abstract/document/10670195/

引言

人工智能和物联网的融合催生了全息通信等智能应用，推动通信系统向语义通信演进。语义通信注重传输内容的「含义」，能实现更智能的通信服务。随着元宇宙等应用发展，传输数据日益呈现多模态特征。

传统语义通信系统仅能处理单一模态数据，而多模态语义通信系统能够处理文本、语音、图像、视频等多种模态数据，减少了高开销和低效率的问题。

图 1 ：传统的单模态语义通信系统与多模态语义通信系统。

如图 1（a）所示，传统的语义通信系统通常只能处理单一类型的单模态数据。因此，传输多模态数据时，需要使用多个单模态语义通信系统，可能导致显著的高开销和低效率。另一方面，图 1（b）展示了一个多模态语义通信系统，通过采用统一的多模态语义通信模型，可以处理多种模态数据。

然而，多模态语义通信系统的设计面临以下挑战：

（1）数据异构：需要处理文本、图像、视频等多种格式的数据，且目标任务可能非常复杂，涉及机器翻译、图像识别、视频分析等。提取语义特征时，还需解决不同模态之间的语义对齐问题。

（2）语义歧义：在不同模态之间传输数据时，可能会产生语义错误或误解，同时不同的知识背景可能导致语义理解不一致，进而引发歧义。

（3）信号衰落：信号在传输过程中可能会受到衰落和噪声的影响，导致信息丢失或语义变化，从而增加个性化语义重建的复杂性。

为解决上述挑战，本文提出了一种基于 AI 大模型的多模态语义通信框架，具体贡献如下：

（1）统一的语义表示：采用基于多模态语言模型的多模态对齐技术（MMA），使用可组合扩散模型（CoDi）处理多模态数据。MMA 通过构建共享的多模态空间，促进交叉模态的同步生成。通过将多模态数据统一到文本模态，提升语义一致性和信息传输的效率。

（2）个性化语义理解：设计了基于个性化 LLM 的知识库（LKB），利用 GPT-4 模型来理解个人信息。通过个性化提示库对 GPT-4 进行上下文学习，创建本地知识库，提取更多相关的语义信息，从而消除语义歧义。

（3）生成式信道估计：提出使用条件生成对抗网络进行信道估计（CGE），估算衰落信道的信道增益。该方法通过专用生成器网络和 leakyReLU 激活函数，捕捉信道增益的非线性特性，从而实现高质量的信道增益预测。

多模态语义通信的实现

LAM-MSC 框架集成了 AI 大模型作为解决方案。具体来说，该框架通过以下五个关键步骤实现多模态语义通信。

图 2 ：所提出的 LAM-MSC 框架的示意图。

基于 MMA 的模态转换

对于输入的多模态数据(图像、音频和视频等)，利用 MMA 将这些数据转换为文本数据，并保持语义对齐。

例如，如图 3 所示，原始的传输数据包括一张照片，上面是发送者（假设是 Mike）和接收者（假设是 Jane）在花园里玩耍的场景。然后，原始图像被转换成文本描述：「A boy and a girl in a playful pose. The boy has golden hair and is wearing a brown suit with a red tie. The girl has black hair and is wearing a white dress with a black bow. The background is a garden」。

图 3 ：所提出的 LAM-MSC 框架的数据流示例：发送者 Mike 向接收者 Jane 发送一张图片，意图传达图片的语义内容为「Mike and Jane are playing in a garden」。

基于 LKB 的语义提取

对转换后的文本数据，发送者只传输包含其意图的关键信息，省略冗余信息。整合发送者意图和用户信息，提取个性化语义。

如图 3 所示，通过整合发送者的意图、用户信息和兴趣，LKB 提取了个性化语义「Jane and me in a playful pose. The background is a garden」。这个描述代表了发送者和接收者的身份，并表明发送者的关注重点主要是照片中的「两个人」和背景，而不是他们的装扮。

基于 CGE 辅助的语义通信数据传输

语义通信以语义编码器为起点，从原始数据中提取有意义的元素或属性，旨在将该语义信息尽可能准确地传输给接收者。然后，信道编码器将语义编码数据调制成适用于无线通信的复数输入符号。为了减轻衰落信道的影响，采用 CGE 来获取 CSI，从而将乘法噪声转化为加性噪声。

这种转换降低了信道解码器恢复传输信号的复杂性。接下来，利用信道解码器进行信号解调，同时克服加性噪声的影响。最后，语义解码器执行语义解码，从而获取恢复的语义（例如，「Jane and I are playfully posing. The background is a garden.」）。尽管物理信道的干扰导致恢复语义与原始内容之间存在轻微差异，但总体含义保持了一致性。

基于 LKB 的语义恢复

接收者可能无法直接理解恢复的语义，因为接收到的消息的个性化是针对发送者而不是接收者的，这可能导致语义歧义问题。类似地，根据接收者的个性化提示词和知识库，采用 LKB 将解码的语义转换为接收者的个性化语义。

如图 3 所示，LKB 根据接收者的用户信息（例如，身份）调整恢复的语义。因此，恢复的语义被转化为接收者 Jane 的个性化语义，得到文本「Mike and I are playfully posing. The background is a garden」。

基于 MMA 的模态恢复

与模态转换类似，MMA 用于实现模态恢复，即将文本数据转换回原始的模态数据。然而，需要注意的是，本文仅评估恢复的和原始的模态数据在语义层面上的一致性，而非数据细节的完全重现（例如可以通过角色一致性等技术生成相同角色身份的图片，但是无法保证图片在像素上的一致性）。

如图 3 所示，恢复的图像仅显示「Mike and Jane are playing in a garden」。这是因为发送者的主要意图在于人物和背景的语义方面，而不是关于人物装扮的具体细节。

仿真结果

图 4 在不同信噪比下的多模态语义通信传输准确性。

图 4 的消融实验显示，提高信噪比能提升多模态语义通信的准确性。对比 LAM-MSC 和无 LKB 的 LAM-MSC 可以看出，个性化知识库在提升语义传输准确性上起到了积极作用。

此外，去除 CGE 的 LAM-MSC 表现最差，表明在所提出的语义通信系统中引入 CGE 的重要性。

图 5 不同方法的对比结果。

图 5 的对比实验比较了 LAM-MSC 框架与专门用于图像传输的 DeepJSCC-V 方法和音频传输的 Fairseq 方法。

尽管这些方法在准确性上略胜一筹，但 LAM-MSC 在压缩率上表现更好，因为它能将图像和音频转为文本，减少传输数据量。此外，LAM-MSC 能处理多模态数据，而 DeepJSCC-V 和 Fairseq 只能处理单模态数据。

玩酷网

跨模态通信总丢失语义、产生歧义?LAM-MSC实现四模态统一高效传输

岁月如歌醉