厦门大学媒体分析与计算实验室九篇论文被计算机视觉领域的顶级国际会议CVPR 2024接收。简要介绍如下:
1. DiffAgent: Fast and Accurate Text-to-Image API Selection with Large Language Model
文本到图像(T2I)生成模型在学术研究内外有着广泛的应用。例如,T2I创新平台Civitai社区目前就拥有令人印象深刻的74,492个不同模型。模型的多样性导致在选择最合适的模型和参数方面通常需要大量试验,这是一个艰巨的挑战过程。本文着眼于大型语言模型(LLM)的工具使用研究并引入了DiffAgent。DiffAgent是一种LLM代理,旨在通过API调用在几秒钟内筛选准确的选择。DiffAgent利用了一个新颖的两阶段培训框架SFTA,从而能够根据人类偏好准确地将T2I API响应与用户输入对齐。为了培训和评估DiffAgent的能力,本文提出了一个全面的数据集DABench,其包括来自社区的广泛T2I API。评估显示,DiffAgent不仅擅长识别适当的T2I API,还强调了SFTA培训框架的有效性。

该论文第一作者是厦门大学信息学院人工智能系2022级硕士生赵力锐,通讯作者是其导师纪荣嵘教授,由2022级博士生张玉鑫、邵文琪(上海人工智能实验室)、张凯鹏(上海人工智能实验室)、杨悦(上海人工智能实验室)、乔宇教授(上海人工智能实验室)、罗平教授(上海人工智能实验室)等共同合作完成。
2. UniPTS: A Unified Framework for Proficient Post-Training Sparsity
本文针对后训练稀疏相较于传统稀疏在高稀疏率下性能明显下降的问题,试图通过分析对稀疏性能有重要影响的三个因素来改善这种差异。具体来说主要包括:(1)促进稀疏网络从密集网络学习有效知识的稀疏目标;(2) 一种减少再生长的进化搜索算法来确定最佳稀疏分布;(3) 基于前两点的动态稀疏训练过程,来全面优化稀疏结构,同时确保训练稳定性。本文提出的UniPTS框架在广泛的基准测试中被验证为比现有的PTS方法优越得多。作为示例,当在ImageNet上将ResNet50的稀疏率剪枝到90%时,UniPTS框架将POT方法的性能从3.9%提高到68.6%。

该论文第一作者是2023级硕士生谢晶晶、通讯作者是曹刘娟教授,由2022级博士生张玉鑫、2022级硕士生林志航、纪荣嵘教授共同合作完成。
3. FocSAM: Delving Deeply into Focused Objects in Segmenting Anything
该论文提出了一种称为FocSAM的图像交互分割模型,旨在解决分割一切模型(SAM)在处理复杂样本时遇到的稳定性问题。FocSAM针对SAM的两个方面改进其性能。首先,FocSAM引入了动态窗口多头自注意力(Dwin-MSA)机制,允许模型在交互过程中通过少量的额外计算动态地将图像特征聚焦于目标对象,提高了目标所在区域的特征显著性;其次,FocSAM采用了像素级动态ReLU(P-DyReLU)以更有效地将少量的交互信息与图像特征深度融合,进一步提高模型性能。FocSAM在多个数据集上达到了当前最先进水平,并只需之前最佳方法约5.6%的CPU推理时间。

该论文第一作者是厦门大学信息学院人工智能系2022级博士生黄有,通讯作者是曹刘娟教授,由林贤明助理教授、张声传助理教授、江冠南博士(宁德时代)、纪荣嵘教授等共同合作完成。
4. RepAn: Enhanced Annealing through Re-parameterization
本文提出了一种利用重参数化增强的模拟退火算法,通过引入结构重参数化(Re-parameterization)的结构变换特点,对退火算法进行低开销改进。现有的退火算法存在一个问题,即忽视了不同周期之间的相关性,忽略了增量学习的潜力。本文认为这是由于固定的网络结构阻止了模型在不同训练阶段识别不同特征。为此,本文提出了RepAn,将重参数化方法改进为可逆的结构变换,并将其与退火算法相结合以增强训练。具体而言,网络在训练过程中通过重参数化压缩、结构扩展恢复的循环,在每个退火轮次中迭代这些过程,得到了更优秀的训练性能。

该论文第一作者是厦门大学信息学院2021级硕士生费翔,通讯作者是曹刘娟教授,由郑侠武副教授、晁飞副教授共同合作完成。
5. PortraitBooth: A Versatile Portrait Model for Fast Identity-preserved Personalization
本文提出一种基于扩散模型的个性化图像生成方法(PortraitBooth),能够在满足高效率、鲁棒身份保持的条件下实现表情可编辑的文本到图像生成。首先,利用人脸识别模型获得的特征嵌入进行个性化图像生成,降低了计算开销并缓解了身份失真问题。其次,引入动态身份保护策略确保生成图像与原始图像高度相似。最后,融入情感感知的交叉注意力控制用于生成图像中的多样化面部表情,并支持文本驱动的表情编辑。实验结果表明:无论是在单一还是多目标图像生成场景,本文方法明显优于现有方法,获得更好的个性化图像生成效果。

该论文第一作者是厦门大学信息学院计算机系2021级硕士生彭旭,通讯作者是其导师金泰松副教授,由纪荣嵘教授、2021级硕士生林威、罗栋豪(腾讯优图)、汪铖杰等共同合作完成。
6. Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation
指向性遥感图像分割(RRSIS)是一项新兴的多模态任务,旨在根据给定的指向性描述在遥感图像中准确分割出所描述的对象实例。传统的指向性图像分割方法在处理遥感图像时,往往因无法有效应对其复杂的空间尺度和变化多端的目标方向而导致分割结果不尽如人意。为应对这一挑战,本文提出了一种旋转多尺度交互分割网络(RMSIN),该网络融合了层内跨尺度交互模块(IIM)、层间跨尺度交互模块(CIM)以及自适应旋转卷积模块(ARC)。其中,IIM 和 CIM 能够有效整合不同尺度的细粒度信息,而 ARC 专门用于处理遥感图像中广泛存在的不同旋转方向的目标。本文还构建了一个新的数据集,该数据集包含了 17,402 个图像-描述-掩码三元组,覆盖了广泛的多尺度和旋转场景,为 RRSIS 任务建立了严格的评估基准,并有望显著推动指向性遥感图像分割领域的发展。

该论文共同第一作者为厦门大学人工智能研究院2022级硕士生刘思寒、2023级博士生马祎炜、2022级硕士生张晓庆,通讯作者是博士后研究员纪家沂,由2021级硕士生王昊为、孙晓帅教授和纪荣嵘教授等共同合作完成。
7. Aligning and Prompting Everything All at Once for Universal Visual Perception
本文是一个视觉感知基础模型-APE,可以一次性对图像中的所有前背景区域、物体和部件,并进行高效图文对齐(Visual-Language Alignment)训练和查询提示(Query Prompting)推理,并输出目标检测、图像分割和视觉定位的结果。本文从三个方面构建重要能力:(1)任务泛化:APE将常见和长尾词汇的目标检测、各种粒度的图像分割和视觉定位统一到一个实例级检测Transformer框架中。(2)数据多样性:APE同时在广泛的数据源上进行视觉和文本对齐(Aligning),包括长尾类别、联邦标注、任何分割以及混合词汇和句子描述的概念。(3)有效的描述提示(Prompting):APE一次性可以查询数千个基于物体词汇和句子描述的文本提示,并利用句子级提示嵌入实现有效的门控跨模态融合和对齐。APE一个模型一套参数在160个测试数据集上取得当前SOTA或极具竞争力的结果!

该论文第一作者是厦门大学信息学院2017级博士毕业生沈云航,通讯作者是林绍辉研究员,由纪荣嵘教授指导完成。
8. Autoregressive Queries for Adaptive Tracking with Spatio-Temporal Transformers
本文提出了一种简单有效的挖掘时空信息的跟踪算法。现有的大多数高性能跟踪算法依赖于许多手工制作的组件来学习时空信息,它们对于时空信息的探索还远远不够。因此,本文引入简单的自回归query来有效地学习时空信息,提出了一个时空Transformer跟踪器实现自适应跟踪(命名为AQATrack)。首先,使用一个Encoder来学习目标的突出的空间特征。其次,设计了一个时序decoder来挖掘和传播连续帧中的时序信息。在时序decoder中,本文引入了一组可学习和自回归的目标query,以滑动窗口的方式捕捉瞬时目标外观变化。最后,本文设计了一个时空信息融合模块(STM)用于空间和时间信息的聚合,在没有任何超参数的情况下有效地结合静态和瞬时目标外观变化来指导鲁棒跟踪。

该论文第一作者是广西师范大学计算机科学与工程学院2022级硕士生谢锦霞,通讯作者是钟必能教授(广西师范大学),由纪荣嵘教授、张盛平教授(哈尔滨工业大学)、李先贤教授(广西师范大学)共同合作完成。
9. Graco: Granularity-Controllable Interactive Segmentation
本文介绍了一种新颖的交互式分割方法,称为Granularity-Controllable Interactive Segmentation(GraCo),它通过引入额外的输入参数来实现对预测粒度的精确控制,从而增强了交互系统的定制化,并在解决模糊性的同时消除了冗余。现有的交互式分割(IS)流程分为两类:单粒度输出和多粒度输出。后者旨在缓解前者中存在的空间模糊性。然而,多粒度输出流程的交互灵活性有限,且会产生冗余结果。尽管如此,注释多粒度掩膜的高昂成本以及缺乏具有粒度注释的可用数据集,使得模型难以获得控制输出粒度所需的指导。为了解决这个问题,本文设计了一个任意粒度掩膜生成器,利用预训练IS模型的语义属性自动生成大量的掩膜-粒度对,而无需额外的手动注释。基于这些对,本文提出了一种粒度可控的学习策略,有效地将粒度可控性赋予IS模型。在复杂的对象和部分级别场景的广泛实验中,本文的GraCo与以往的方法相比显示出显著优势。这突显了GraCo成为一个灵活的注释工具的潜力,能够适应多样的分割场景。

该论文第一作者是鹏城实验室联培博士生赵祎安,由陈杰教授(北京大学),郑侠武副教授,纪荣嵘教授共同合作完成。