您当前位置: 首页  >  新闻中心  >  菠菜导航新闻  >  正文

菠菜导航新闻

博士生张泽帆的论文被多媒体领域顶级国际会议ACM MM 2024接收

发布日期:2024-07-27 发布人: 点击量:

白天教授团队的论文“Caption-Aware Multimodal Relation Extraction with Mutual Information Maximization”ACM MM 2024 录用。本文的第一作者是白天教授指导的2023级博士张泽帆,白天教授为通讯作者。

多模态关系抽取(Multimodal Relation ExtractionMRE)是多模态研究领域中非常关键的研究之一。然而,现在的MRE模型在多模态对齐过程中很容易受到无关对象的影响,这被称为误差敏感性问题。造成该问题的主要原因是视觉特征与文本特征没有完全对齐,且推理过程可能会受到冗余和嘈杂信息的干扰,从而有丢失关键信息的风险。鉴于此,我们提出了一种基于描述感知和互信息的多模态关系提取网络(CAMIM)。具体来说,我们首先通过多模态大型语言模型(MLLM)生成详细的图像描述。然后,描述感知模块(CAM)进行细粒度的视觉实体和文本实体对齐以及推理。此外,为了在不同模态中保存关键信息,我们利用互信息最大化方法来调节多模态推理模块。实验表明,在基准数据集MNRE上,我们的模型优于最先进的MRE模型。进一步的消融研究证明了我们的描述感知模块和互信息最大化方法的可插拔性和有效性。

ACM MM 全称为国际多媒体大会(ACM International Conference on Multimedia),是多媒体领域以及多模态领域中的顶级国际会议,也是中国计算机学会(CCF)收录的计算机图形学与多媒体领域A类会议,本次会议录用率约26.20%