MAC实验室九篇论文被国际计算机视觉与模式识别会议CVPR 2023接收!CVPR是由IEEE主办的计算机视觉、模式识别及人工智能等领域最具影响力和最重要的国际顶级会议。本届CVPR 2023共收到9155篇有效投稿,最终共有2360篇论文被录用,接受率为25.78%。
实验室接收论文简要介绍如下:
1. STAR Loss: Reducing Semantic Ambiguity in Facial Landmark Detection
该论文提出一种面向人脸点位检测的自适应各向异性损失,用于减缓标注噪声对模型训练的影响。语义歧义问题广泛存在于关键点任务中,该问题会引入标注噪声,影响模型收敛,进而导致模型预测不准确和不稳定。该论文观察到语义歧义会导致预测热图呈各项异性分布,因此,基于PCA设计算法衡量预测分布的各向异性。与标准回归损失相比,当预测分布为各向异性时,会使损失较小,从而自适应地减轻语义歧义对模型训练的影响。除此之外,该论文提出两种特征值限制方法,用于避免学习错误的特征和分布异常变化。该方法在三个常用数据集(COFW、300W和WFLW)上取得了最佳性能。

论文由实验室2020级硕士生周正林,NII(日本国立情报学研究所)刘弘,纪荣嵘教授(通讯作者)等合作完成。
2. DistilPose: Tokenized Pose Regression with Heatmap Distillation
本文提出了一种基于知识蒸馏的二维人体姿态估计框架,将基于热力图方法的人体姿态估计器作为教师模型,将基于坐标回归方法的人体姿态估计器作为学生模型,通过Token-Distilling Encoder和Simulated Heatmaps两个模块,使得训练所得的学生模型能够在学得教师模型知识上的优势的同时保持结构上的优势。本论文在常用的公开数据集MSCOCO上进行实验,验证了本算法能够在保持学生模型结构几乎不变的情况下,极大地提高学生模型的性能。

该论文由人工智能系2020级硕士生叶苏航与其导师纪荣嵘教授、2019级博士生胡杰、张声传助理教授(通讯作者)、曹刘娟教授和优图实验室合作完成。
3. Discriminator-Cooperated Feature Map Distillation for GAN Compression
该论文针对生成对抗网络中的模型压缩问题,提出一种基于知识蒸馏的方法提升轻量化生成器的性能。论文提出基于鉴别器协作的知识蒸馏框架DCD,该方法考虑在蒸馏框架中,教师鉴别器可以作为现成的特征语义编码器,提炼出生成器中间特征图的有效信息进行蒸馏。为将生成器的特征图输入鉴别器中,对教师和学生网络分别定义两个不同的下采样模块,下采样模块均采用1×1卷积,其中教师的下采样模块初始化后不作更新,学生下采样模块随着训练更新参数。最后结合感知损失蒸馏以及教师鉴别器协作的生成对抗损失,在多个数据集(horse2zebra、summer2winter和edges2shoes)上实现了最佳性能。

该论文由2021级硕士生胡铁,腾讯优图林明宝,尤梨洲,晁飞副教授,纪荣嵘教授(通讯作者)等合作完成。
4. Meta Architecture for Point Cloud Analysis
本文中提出了一个三维点云分析网络的统一框架,称为PointMeta,流行的三维点云分析方法可以适合该框架。这带来了三个好处。首先,它允许我们以公平的方式比较不同的方法,并使用快速实验来验证从比较中总结出来的任何经验观察或假设。其次,PointMeta框架所提供的视野使我们能够思考不同的组件,并重新审视流行方法所做出的共同信念和关键的设计决策。第三,基于前两种分析的经验教训,通过对现有方法进行简单的调整,我们能够得到出一个高效的基础构建块,称为PointMetaBase。通过在具有挑战性的基准上进行的广泛实验,它显示出非常强的效率和有效性的性能。在S3DIS数据集上,PointMetaBase只用2%/11%/13%的计算成本超过了0.7%/1.4/%2.1%之前最先进的方法。

该论文由信息学院人工智能系2021级博士生林豪佳与其导师纪荣嵘教授(通讯作者),晁飞教授,田永鸿教授等共同合作完成。
5. RefTeacher: A Strong Baseline for Semi-Supervised Referring Expression Comprehension
RefTeacher面向半监督指向性目标检测任务,提出了第一个半监督REC框架以降低标注成本。本文采用教师-学生网络框架,教师网络输入描述对象的图像和句子(无标签数据),输出文本所指向的伪边界框,与有标签数据一起用于训练学生网络,教师网络通过学生网络EMA更新。为了解决半监督REC任务中伪标签稀疏和错误率高的问题,RefTeacher包含两个专门设计的模块:基于注意力的模仿学习(AIL)和自适应伪标签加权(APW),以将知识从教师模型更好传递给学生模型。为了证明该模型的有效性,本文与多个基线比较并取得良好性能。

该论文由2021级硕士生孙嘉沐,2021级博士生罗根,周奕毅副教授(通讯作者),孙晓帅副教授,宁德时代江冠南,宁德时代王智玉,纪荣嵘教授等合作完成。
6. Clover:Towards A Unified Video-Language Alignment and Fusion Model
建立一个通用的视频语言预训练模型来解决各种视频理解任务,如视频文本检索和视频问题回答,是机器学习领域的一个开放性挑战,现有方法通常存在泛化性差以及推理效率低的问题。为了解决上述问题,本文提出了一种统一的视频语言预训练模型Clover,Clover通过结合视频文本检索中常用的双塔模型和视频问答任务中常用的融合模型并在下游任务拆分使用来解决在多类下游任务泛化性差的问题,同时,Clover通过一个新的三模态对齐的预训练任务来协同提升模型跨模态对齐和跨模态融合的能力,使融合模型可以通过梯度回传以外的方式直接影响单模态编码器。此外,Clover通过纳入对语义增强的MLM预训练任务和配对排序预训练任务来加强三模态对齐的效果,提升模型的准确性和鲁棒性。实验证明,本文提出的Clover预训练模型在多个下游任务数据集上达到了当前的SOTA,包括了三个视频文本检索数据集和八个视频问答数据集。

该论文由2020级硕士生李毅男,孙晓帅副教授(通讯作者),纪荣嵘教授,字节跳动智能创作黄靖佳、冯佳时、吴兴龙等合作完成。
7. RefCLIP: A Universal Teacher for Weakly Supervised Referring Expression Comprehension
该论文面向弱监督指向性目标检测任务,即采用图像级别标注进行训练,根据指代表达式在图像中定位目标对象。现有方法采用两阶段流程,存在着速度和泛化性上的弊端。 针对以上问题,该论文首先提出了一种端到端的单阶段弱监督REC方法,称为RefCLIP。具体来说,RefCLIP将弱监督REC重新定义为锚点-文本匹配问题,可以避免现有方法中复杂的后处理。为了实现弱监督学习,该论文引入了基于锚点的对比损失,通过大量锚点-文本对进行优化训练。基于RefCLIP,该论文进一步提出了第一个针对现有REC模型的弱监督训练方案,即由RefCLIP为REC模型生成伪标签进行弱监督训练。通过精心设计,该方案甚至可以帮助现有REC模型实现比RefCLIP更好的弱监督性能。论文方法在在RefCOCO,RefCOCO+, RefCOCOg和ReferItGame数据集上进行了充分验证。相较于之前的方法,论文方法不仅将推理速度提高了5倍,而且显著提高了性能,例如在RefCOCO上提高了24.87%。

该论文由2021级硕士生金磊,2021级博士生罗根,周奕毅副教授,孙晓帅副教授(通讯作者),宁德时代江冠南,束岸楠和纪荣嵘教授合作完成。
8. Solving Oscillation Problem in Post-Training Quantization Through a Theoretical Perspective(CVPR 2023)
论文探索并提出理论证明来解释为什么振荡问题在后训练量化中会影响量化精度。本文中试图通过在理论上引入一个原则性的和通用的框架来解决这个问题。特别是,首先展示了后训练量化中的振荡问题,并证明此问题是由模块容量差异引起的。为此,定义了数据依赖和无数据场景下的模块容量(ModCap),其中相邻模块之间的差异用于衡量振荡程度。然后通过选择 top-k 差分来解决问题,其中相应的模块被联合优化和量化。大量实验表明,本文的方法成功地减少了性能损失并推广到不同的神经网络和后训练量化 算法。例如,使用2/4位ResNet50量化,本文的方法超越了之前的最先进方法1.9%。它在小模型量化上受益更为明显,例如在MobileNetV2×0.5上超越 BRECQ 方法6.61%。

该论文由2022级博士生马跃萧,字节跳动李慧霞,鹏城实验室郑侠武博士,字节跳动肖学锋,晁飞副教授,纪荣嵘教授(通讯作者)等合作完成。
9. You Only Segment Once: Towards Real-Time Panoptic Segmentation
文章提出了一种实时的全景分割方法,能通过统一的模型同时完成目标分类、检测、分类任务。为了提升整体模型的处理速度,文章分别提出了卷积优先特征聚合器与可分离动态卷积解码器。卷积优先特征聚合器通过调整卷积层与双线性差值的顺序,在理论精度完全等价的情况下实现模型的加速;可分离动态卷积解码器通过共享多头注意力机制中的全连接参数进行模型的加速。文章在常用的全景分割数据集MSCOCO、ADE20K、Cityscape以及Mapillary Vista上进行了相关实验,本文方法在速度超越其他基线模型的同时,达到了具有竞争力的准确性。

该论文由信息学院2019级博士生胡杰、2021级硕士生黄琳焱、2021级本科生任天和、张声传助理教授、曹刘娟教授(通讯作者)、纪荣嵘教授合作完成。