第32届ACM国际多媒体大会(Proceedings of the 32nd ACM International Conference on Multimedia,ACM MM 2024)将于2024年10月28日至11月1日在澳大利亚墨尔本举行,是中国计算机学会CCF推荐的A类国际会议。厦门大学媒体分析与计算实验室十篇论文被录用, 录用论文简要介绍如下:

1. GOI: Find 3D Gaussians of Interest with an Optimizable Open-vocabulary Semantic-space Hyperplane

本文提出了一种新型基于三维高斯泼溅 (3D Gaussian Splatting, 3DGS)的开放词汇感知框架GOI,针对开放词汇的文本提示输入实现高精度的三维目标区域定位。为此本文提出了一种有效的语义空间压缩方法,利用场景先验将有噪声的高维语义特征压缩成紧凑的低维向量,嵌入到3DGS中。在开放词汇查询的过程中,现有方法依赖于手动设置的固定经验阈值,根据场景的语义特征和查询文本的语义特征距离来选择区域,这种方法缺乏鲁棒性。因此,本方法将特征筛选的步骤视为特征空间内的超平面划分的过程,仅保留与查询高度相关的场景语义特征。本方法利用现有的2D指向性分割模型来微调语义空间超平面,从而大大提高了三维开放词汇查询的准确性。在多个数据集上的实验证明本方法都超过了之前的最先进的方案,达到了SOTA性能。

本文共同第一作者是信息学院2023级博士研究生曲延松和2024级硕士研究生代绍辉,通讯作者是曹刘娟教授,由2023级博士生李新阳、2023级博士生林将航、张声传助理教授、纪荣嵘教授共同合作完成。

2. Deep Instruction Tuning for Segment Anything Model

Segment Anything Model(SAM)已成为多媒体和计算机视觉领域的研究热点,它在各种(非)条件图像分割任务中表现出强大而通用的能力。尽管 SAM 可以支持不同类型的分割提示,但与基于点和框引导分割相比,它在文本指示任务上的表现要差得多。针对这个问题,本文提出了两种简单而有效的SAM深度指令调优(DIT)方法,一种是end-to-end的,另一种是layer-wise的。本文认为深度文本指令调优是缓解其默认轻量级掩模解码器中浅层融合方案引起的这种缺陷的关键。在几乎不改变SAM主体结构下,DIT 就可以直接将 SAM 的图像编码器转换为独立的视觉语言学习器,而不是构建额外的深度融合分支,从而最大限度地发挥其卓越的分割能力。在三个极具竞争力的RIS基准数据集上的广泛实验表明,简单的end-to-end DIT可以大幅提高SAM性能,而layer-wise DIT可以进一步将性能提高到最先进的水平。

该论文第一作者是人工智能研究院2022级硕士生黄霄瑞,通讯作者是周奕毅副教授,由信息学院2021级博士生罗根、2020级硕士生朱朝阳、2023级硕士生佟浡、孙晓帅教授、纪荣嵘教授共同合作完成。

3. Advancing Multimodal Large Language Models with Quantization-Aware Scale Learning for Efficient Adaptation

本文首次研究了参数量化在多模态大语言模型中缓解视觉-语言指令调优时遇到的显著资源限制的潜力,提出了一种基于多模态预热的量化感知尺度学习方法 (QSLAW)。该方法基于两个关键创新:(1) 以学习LLM权重的分组尺度因子作为高效微调方式,以减轻由激活异常值引起的量化误差,并实现更有效的视觉-语言指令调优;(2) 实现一种多模态预热,逐步整合语言和多模态训练样本,从而防止量化模型对多模态数据的过拟合,同时确保多模态大语言模型对下游视觉-语言任务的稳定适应。大量实验表明,由QSLAW量化的模型在性能上与其全精度对应模型相当,甚至超越,同时在VL调优时间和GPU消耗方面最多可减少1.4倍。

该论文第一作者是信息学院2023级硕士生谢晶晶,通讯作者是曹刘娟教授,由2021级博士生张玉鑫、林明宝(新加坡Skywork AI 2050研究院)、纪荣嵘教授共同合作完成。

4. Multimodal Inplace Prompt Tuning for Open-set Object Detection

将大型语言模型集成到开放世界检测框架中,能显著提高检测器在新环境中的适应性。通过大语言模型生成的提示文本表征,有助于在开放世界检测器中为图像类别构建分类边界。然而,直接在检测系统中微调语言模型会导致冗余的注意力模式,从而产生次优的文本表征。为了充分利用大型语言模型的能力并增强其针对检测任务的编码表征,本研究引入了一种冗余评估指标,以识别冗余的注意力模式。在冗余度较高的区域,本文引入了多模态同步提示调优(MIPT),利用更具体的视觉信息丰富文本提示。实验结果验证了本文MIPT框架的有效性,在多个基准测试中取得了显著提升,例如将GLIP-L在ODinW-35上的表现从22.6%提升到25.0%,并在LVIS上取得了9.0%的性能提高。

该论文第一作者是信息学院2022级硕士生李桂林,通讯作者是纪荣嵘教授,由张梦丹(腾讯优图实验室)、郑侠武副教授等共同合作完成。

5. StealthDiffusion: Towards Evading Diffusion Forensic Detection through Diffusion Model

生成模型的快速进展引发了AI生成内容隐蔽(AIGC-S)这一关键任务,其目标是创建能够规避法医检测器和人工检查的AI生成图像。对这一任务展开研究对于理解现有检测方法的漏洞和开发更强大的生成技术至关重要。当前的基于对抗攻击的方法通常会引入可见噪声,具有较差的可迁移性,并且未能解决AI生成图像与真实图像之间的光谱差异。针对上述挑战,本文提出了一种基于StableDiffusion的框架StealthDiffusion,能够将AI生成的图像修改为高质量的、不易察觉的对抗性样本,从而避开最先进的法医检测器。StealthDiffusion包括两个主要组件:潜在对抗优化以及控制变分自编码器(Control-VAE),前者在稳定扩散的潜在空间中生成对抗性扰动,后者在不影响原始扩散模型生成过程的情况下,进一步减少生成的对抗性图像与真实图像之间的光谱差异。实验表明,StealthDiffusion在白盒和黑盒环境下均表现出较好的性能,能够有效地将AI生成的图像转化为频谱与真实图像相似的高质量对抗性伪造样本。这些由StealthDiffusion处理后的图像被最先进的法医分类器分类为真实图像,并且难以被人类辨别。

该论文共同第一作者是人工智能研究院2023级硕士生周子寅和2021级博士生孙可,通讯作者是孙晓帅教授,由2022级硕士生陈忠淅、2020级博士生匡华峰、纪荣嵘教授共同合作完成。

6. QueryMatch: A Query-based Contrastive Learning Framework for Weakly Supervised Visual Grounding

视觉定位(VG)是一项根据自然语言描述定位物体的跨模态分析任务。近期的研究致力于探索弱监督学习方法以降低标注的成本。传统弱监督方法通常采用Anchor-Text匹配范式,尽管效率较高,但基于Anchor的表示常常含有噪声且不足以充分描述物体信息,阻碍了视觉与语言模态的精准对齐。针对这一瓶颈,本文提出了QueryMatch,一种新颖的基于Query的单阶段框架,用于弱监督视觉定位。不同于以往的工作,QueryMatch使用一组Query特征来表示候选物体,更易于与目标物体建立精确的一对一关联。QueryMatch将弱监督下的视觉定位重定义为一个Query-Text匹配问题,可以通过基于Query特征的对比学习来进行优化。基于QueryMatch框架,本文进一步提出了负样本质量估计(NSQE)策略,通过主动选择高质量的Query特征来增强对比学习中负样本的语义信息,可极大地促进QueryMatch的弱监督学习效果。在两个视觉定位任务(REC和RES)的三个基准数据集RefCOCO、RefCOCO+和RefCOCOg上的实验结果展示了QueryMatch在弱监督领域的先进性能。在RefCOCO数据集弱监督REC任务上提升了5%,弱监督RES任务上提升了超过20%。

该论文第一作者是信息学院2022级硕士生陈晟新,通讯作者是孙晓帅教授,由罗根博士、周奕毅副教授、江冠南博士(宁德时代)、纪荣嵘教授共同合作完成。

7. Cantor: Inspiring Multimodal Chain-of-Thought of MLLM

现有的多模态思维链方法通常将问题分解为多个相关的子任务,并调用各种外部工具依次处理。然而,由于视觉信息不足和低级感知工具的局限性,这种范式在决策时面临潜在的“决策幻觉”,以及低级感知工具无法提供高级推理信息的挑战。为此,本文提出了一种创新的多模态CoT框架,称为Cantor,其特征是感知决策架构。Cantor首先利用MLLM或LLM扮演决策生成器,通过整合视觉输入来分析图像和问题,确保上下文信息对齐。此外,Cantor利用MLLM的高级认知功能,使其扮演多个不同的专家来获取更高层次的认知信息,增强CoT生成过程。在无需额外训练的情况下,Cantor在两个复杂的视觉推理数据集ScienceQA 和MathVista上显著提高了CoT性能,证明了有效性。

该论文共同第一作者是信息学院2022级硕士生高体民、陈珮娴(腾讯优图实验室)和张梦丹(腾讯优图实验室),通讯作者是曹刘娟教授,由张岩工程师、孙星(腾讯优图实验室)、纪荣嵘教授等共同合作完成。

8.Adaptive Selection based Referring Image Segmentation

指示性图像分割(RIS)旨在根据文本描述分割图像中的特定区域。现有的单阶段方法已探索了各种融合策略,但它们面临两个重要问题。首先,大多数方法依赖于从视觉编码器层手动选择的视觉特征,缺乏根据语言偏好灵活选择视觉特征的能力。其次,将单词级特征直接融合到粗粒度对齐特征中会破坏已建立的视觉-语言对齐,导致性能不佳。为解决这些问题,本文提出了一种创新的RIS框架,称为自适应选择与双对齐(ASDA)框架。该框架通过自适应对齐视觉和语言特征克服上述挑战。ASDA的创新之处体现在两个方面。首先,本文设计了一个自适应特征选择和融合(AFSF)模块,动态选择与不同文本描述相关的视觉特征。AFSF配备了尺度特征聚合器,提供多层次的粗粒度特征,既保留关键的低级细节,又为后续的双对齐提供强大特征。其次,本文引入了单词引导的双分支对齐器(WGDA),通过单词引导的注意力将粗粒度特征与语言提示融合,解决视觉-语言错位问题,确保语言描述直接与掩码预测作用。这使得模型能够专注于相关的图像区域并进行准确预测。广泛的实验结果表明,本文的ASDA框架在RefCOCO、RefCOCO+和G-Ref基准测试中优于现有最先进的方法。这种改进不仅展示了ASDA在捕捉细粒度视觉细节方面的优势,还表明其在处理多样化描述时的鲁棒性和适应性。

该论文共同第一作者是人工智能研究院2023级硕士生岳鹏飞和2023级博士生林将航,通讯作者是张声传助理教授,由2023级博士生林将航、胡杰(宁德时代)、曹刘娟教授、纪荣嵘教授等共同合作完成。

9. 3D-GRES: Generalized 3D Referring Expression Segmentation

3D指向性分割(3D-RES)旨在根据自然语言描述在三维空间中分割特定实例。然而,当前的方法仅限于分割单个目标,这限制了该任务的多样性。为克服这一限制,本文引入了广义3D指向性分割(3D-GRES),其扩展了根据自然语言指令分割任意数量实例的能力。针对这一更广泛的任务,本文提出了多查询解耦交互网络(MDIN),旨在将多目标分割任务分解为更简单的单个分割任务。MDIN包括两个基本组件:文本驱动稀疏查询(TSQ)和多目标解耦优化(MDO)。TSQ生成分布在关键目标上的稀疏点云特征,作为查询的初始化。同时,MDO负责在多目标场景中将每个目标分配给不同的查询,同时保持其语义一致性。为适应这一新任务,本文构建了一个新数据集Multi3DRes。MDIN在该数据集上显著优于现有模型,为复杂的多目标3D场景理解开辟了新路径。

该论文的共同第一作者是信息学院2022级硕士吴昌鲡与2023级硕士刘依航,通讯作者是纪荣嵘教授,由博士后研究员纪家沂、孙晓帅教授等共同合作完成。

10.  Prompting to Adapt Foundational Segmentation Models

本文提出了一种创新的“prompting-to-adapt”适应性范式,通过引入图像提示器来增强基础分割模型在不同图像领域的泛化能力。该提示器利用少量样本对生成领域特定提示,并结合多样的图像处理技术提升模型适应性。针对图像提示的非微分性问题,本文设计了基于信息熵的梯度下降优化策略。在多个数据集上的实验显示,该方法有效提升了模型的适应性,并且生成的提示具有较高的可解释性,有助于深入理解图像处理机制。

该论文第一作者是胡杰博士(宁德时代),通讯作者是江冠南博士(宁德时代),由信息学院2019级博士生李杰、2022级硕士生马跃、曹刘娟教授、纪荣嵘教授等共同合作完成。