近日,厦门大学媒体分析与计算实验室八篇论文被计算机视觉和模式识别领域国际顶级会议ICCV 2021录用。ICCVIEEE International Conference on Computer Vision)由IEEE举办,是计算机视觉方向的三大顶级会议之一。本次ICCV共计 6236 篇有效提交论文,其中有 1617 论文被接收,接收率为25.9%

实验室被录取的八篇论文分别如下:

1. Architecture Disentanglement for Deep Neural Networks (oral)


本文第一作者是信息学院人工智能系2019级博士胡杰,通讯作者是信息学院计算机系曹刘娟副教授。本文通过解耦神经网络来探究其可解释性,将对神经网络的理解从单神经元、单层,拓展到了从输入到输出整个推理过程。通过神经网络解耦,本文揭示了神经网络可以按照任务被拆解成子结构,并且最高层语义并不一定出现在神经网络最深层。最后,本文探讨了子结构相似是导致神经网络分类错误的原因之一。


2. ReCU: Reviving the Dead Weights in Binary Neural Networks (Poster)

该论文由信息学院人工智能系2019级硕士许子涵和2018级博士林明宝,与其导师纪荣嵘教授(通讯作者)等合作完成。本文指出了二值神经网络(BNN)中存在难以更新的失活权重Dead weights,提出使用一个权衡量化误差和信息熵的整流钳制单元(Rectified clamp unit, ReCU) 重新赋予失活权重活性,使其更容易被更新,并在多个数据集和模型上验证了该算法的有效性。


3. Aha! Adaptive History-driven Attack for Decision-based Black-box Models


本文的第一作者是信息学院人工智能系2019级博士李杰,通讯作者是信息学院人工智能系纪荣嵘教授。本文针对硬标签查询的黑盒攻击问题,提出了一种有效利用历史先验动态更新的攻击算法(Adaptive History-driven Attack)。该算法从目标类别图片出发,采用改进的随机游走策略以接近原始图像。为了加速优化,算法将之前的查询信息作为先验知识指导当前采样。同时为了平衡迭代过程中的探索与利用,算法基于与输入图片距离缩小的实际值与期望值的比值动态调整两个方向的系数。该算法有效提升硬标签黑盒攻击效率,并在模拟场景和真实线上API场景下得到了验证。


4. Occlude Them All: Occlusion-Aware Mask Network for Person Re-identification

该论文由信息学院计算机系2018级硕士生陈珮娴,人工智能系2020级硕士生刘文锋及其导师纪荣嵘教授,戴平阳高级工程师(通讯作者)等合作完成。本文针对遮挡情况下的行人重识别问题,利用注意力机制判断图片的遮挡位置,在测试阶段提出occlusion unification策略消除遮挡类型的分类歧义,并提出了一种适用于遮挡问题的数据增强方法。本模型以更低的模型复杂度和测试时间,在该任务的常用公开数据集上均取得了最优性能。


5. Parallel Detection-and-Segmentation Learning for Weakly Supervised Instance Segmentation


6. TRAR: Routing the Attention Spans in Transformers for Visual Question Answering.

该论文由信息学院博士后周奕毅、2017级本科生任天和、2020级硕士朱朝阳、孙晓帅副教授(通信作者)、纪荣嵘教授、丁兴号教授以及华为诺亚方舟实验室刘建庄研究员等合作研究完成。本文针对Transformer在视觉与语言任务中的全局与局部注意力建模选择问题,提出了一种全新的网络动态规划机制,叫做Transformer Routing (TRAR)TRAR可以根据模型每一步的输入特征动态选择Transformer的视觉注意力范围,从而为每个多模态样本构建最佳的模型推理路径。此外,通过路径选择问题的有效定义,TRAR可以将动态网络的额外开销降低到几乎可以忽略不计。所提出的方法在VQAREC两个多模态任务中得到了有效验证。


7. EC-DARTS: Inducing Equalized and Consistent Optimization into DARTS.


该论文由信息学院人工智能系2020级博士周勤勤,2018级博士郑侠武,曹刘娟副教授(通信作者),纪荣嵘教授等 共同合作研究完成。本文提出在可微结构搜索中引入均衡和一致的优化(Inducing Equalized and Consistent Optimization into DARTSEC-DARTS),分析了搜索空间的不同算子之间存在的不均衡性以及搜索阶段和重训阶段的结构之间的不一致性问题。通过提出的跨边正规化方法(CrossEdge Normalization)处理不同算子之间的不公平竞争,使对不同算子的搜索优化过程保持相对均衡的状态。为了进一步提高搜索结构的预测性能和真实性能之间的相关性,提出结构转换策略(Induced Structural Transition),通过在搜索过程中构建辅助模型继承超网络的模型权重信息和重训阶段模型的结构信息来提高模型相关性。最终在多个数据集上验证了方法的有效性。


8.Seminar Learning for Click-Level Weakly Supervised Semantic Segmentation


该论文由南方科技大学郑锋老师团队和信息学院纪荣嵘教授等共同合作完成。本文指出了点击级弱监督语义分割中存在标签过拟合和边界不确定的问题,提出了一个新的弱监督语义分割学习范式:研讨会学习(Seminar Learning)。通过设计更泛化的教师模型和多样性的学生模型进行co-teaching训练来补充弱监督信息。相比之前的工作,该算法在点击级弱监督语义分割任务上大幅提升了16.88%,达到了目前最佳的性能。