北京大学团队开源多轮商品检索模型，性能抢先看

背景与动机

小李是一个网购达人，每天花在电商平台上的时间不下几个小时。

最近，他发现一个有意思的现象：无论自己怎么“折腾”修改搜索条件，系统总能找到符合他心意的商品。

这引起了他的好奇心，背后究竟用了什么技术？

今天，我们就来聊聊北京大学彭宇新教授团队的最新研究成果——多轮交互商品检索模型。

多轮商品检索对电商平台的意义重大。

在购物的过程中，用户不仅仅会简单地输入关键词进行搜索，往往还会根据不断变化的需求进行多轮修改。

例如，用户可能先搜索“白色连衣裙”，然后选择“无袖”，接着再添加“有口袋”的条件。

现有的一些方法并不能很好地应对这种多轮修改的需求，容易导致搜索结果与用户期望不一致。

彭宇新教授团队意识到了这个问题，并通过构建新的数据集和模型，提出了系统性解决方案，让我们一探究竟。

数据集和评测基准

为了更好地解决多轮商品检索中的问题，北京大学团队构建了一个新的数据集——FashionMT。

这个数据集的图像数量是以前数据集的14倍，类别数量是以前的30倍，交互轮次数量也增加了27倍。

可以说，FashionMT为复杂的商品检索场景提供了更大的数据支持。

FashionMT的数据主要来源于现有的单轮组合图像检索数据集和多个电商平台。

团队通过数据预处理，对这些图像进行了清洗，去除了损坏、模糊以及非商品类的图像。

这些细致的工作确保了数据的质量和可靠性。

此外，团队还提出了一个修改生成框架，自动化地生成数据集。

这一框架通过捕捉参考图像和目标图像之间的差异，生成了更为准确和多样化的修改文本，使得数据集更加接近实际应用场景。

在数据集构建过程中，团队考虑了实际用户使用中的回溯需求。

他们设定了两种回溯性修改文本生成情境：回滚和组合。

在回滚设置中，用户可以指示系统回滚到某一轮次进行修改；在组合设置中，用户结合多个历史轮次中的图像属性进行修改。

这些设置极大地增强了数据集的实用性。

技术方案

接下来，我们来看看团队提出的技术方案——多轮聚合-迭代模型（MAI）。

这个模型主要处理两大挑战：多模态语义聚合和多轮信息优化。

MAI通过多模态语义聚合（BSA）模块，将图像描述和修改文本的语义信息进行融合，以增强图像与文本之间的语义对齐。

BSA框架利用可学习的tokens，从图像描述和图像自身中提取语义信息，再与修改文本进行交互。

这一步骤确保了每一轮修改后，图像和文本的语义仍保持一致。

MAI采用了多轮迭代优化（MIO）机制。

在实际应用中，每一轮搜索会产生大量的历史交互数据，保存这些数据会占用大量的存储空间。

为了解决这一问题，MIO机制通过优化多轮交互中的关键语义tokens，有效减少冗余信息。

这不仅节省了存储空间，还提高了检索的性能。

此外，MAI还包含了修改语义聚合（MSA）和循环组合损失（CCL）两个模块。

MSA模块将包含参考语义的tokens和修改文本的嵌入进行交互，从而加强修改内容对图像的语义影响。

而CCL模块则通过多轮训练中的循环优化机制，强化目标图像与修改文本之间的匹配度，在每一轮交互中确保语义信息得到充分融合和优化。

实验结果

那么，这个模型的表现如何呢？

团队在FashionMT数据集上进行了一系列实验，结果表明，MAI模型在检索性能上大幅超过现有方法。

在检索召回率方面，MAI模型相比新加坡A*STAR研究院的SPRC方法提高了8.63%，而相比北京大学发布的另一大模型MMICL则提高了11.77%。

这些数据充分证明了MAI模型在多轮商品检索任务中的优越性。

图像结合具体展示了MAI通过利用两阶段语义聚合和循环组合损失在处理细粒度需求时的有效性。

例如，对于“绉布”和“复古设计”等特定术语，MAI能够精准地识别和检索到相关商品。

这种细致入微的处理能力正是用户所需要的。

结论是，通过使用MIO模块，MAI不仅能够保留多轮历史关键信息，还能成功解释诸如“肩带设计”等模糊表达。

如果你也是一个网购爱好者，那么你可以体验到更精准、更贴心的商品推荐服务。

结尾

北京大学彭宇新教授团队的这一研究不仅在技术上取得了显著进步，也为电商平台带来了更多可能性。

通过多轮交互商品检索模型，购物体验变得更加智能和人性化。

这种技术的突破不仅帮助用户找到心仪商品，也为未来的电商发展铺平了道路。

或许，有一天我们每个人都能在购物时感受到无缝衔接的体验，而背后的技术创新就源自于这些默默耕耘的科研工作者。

每一次搜索、每一个点击，都是他们智慧和努力的结晶。

希望未来能看到更多这样的创新，为我们的生活带来更多便利和惊喜。

玩酷网

北京大学团队开源多轮商品检索模型，性能抢先看

极客新发现