学术论文-厦门大学媒体分析与计算组 MAC-Media Analytics and Computing

Yiwei Ma, Ke Ye, Weihuang Lin, Jiayi Ji, Xiaoshuai Sun(通讯作者), Tat-Seng Chua, Rongrong Ji.
An Extensive Benchmark for Single-round and Multi-round Instruction-based Image Editing.
International Journal of Computer Vision (IJCV), 134(5): 240, 2026, 中国计算机学会A类
Yubin Gu, Yuan Meng, Xiaoshuai Sun(通讯作者), Jiayi Ji, Rongrong Ji.
Boosting Filter Optimization and Prompt-Guided Decoding for Mixed Degradation Image Restoration.
International Journal of Computer Vision (IJCV), 134(6): 280, 2026, 中国计算机学会A类
Yiwei Ma, Jiayi Ji, Zhipeng Qian, Xiaoshuai Sun(通讯作者), Rongrong Ji.
CoP: Chain of Perception for Referring 3D Instance Segmentation.
International Journal of Computer Vision (IJCV), 134(4): 169, 2026, 中国计算机学会A类
Yiwei Ma, Weihuang Lin, Zhibin Wang, Jiayi Ji, Xiaoshuai Sun(通讯作者), Chia-Wen Lin, Rongrong Ji.
Boosting Multi-modal Large Language Model with Enhanced Visual Features.
IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 48(4): 4524-4538, 2026, 中国计算机学会A类
Yuan Meng, Yubin Gu, Xiaoshuai Sun(通讯作者), Jiayi Ji, Weijian Ruan, Rongrong Ji.
Wavelet-based Learning and Optimized Sampling for Image Deraining.
Pattern Recognition (PR), 173: 112782, 2026, JCR-1区
Yubin Gu, Yuan Meng, Siting Chen, Jiayi Ji, Xiaoshuai Sun(通讯作者), Weijian Ruan, Rongrong Ji.
SFIR: Optimizing Spatial and Frequency Domains for Image Restoration.
Pattern Recognition (PR), 171: 112188, 2026, JCR-1区
Lvpan Cai, Haowei Wang, Jiayi Ji(共同通讯), YanShu ZhouMen, Shen Chen, Taiping Yao, Xiaoshuai Sun(共同通讯).
Zooming In on Fakes: A Novel Dataset for Localized AI-Generated Image Detection with Forgery Amplification Approach.
Proceedings of the AAAI Conference on Artificial Intelligence (AAAI), 2026, 中国计算机学会A类
Haowei Wang, Jiayi Ji, Tianyu Guo, Yilong Yang, Xiaoshuai Sun(通讯作者), Rongrong Ji
NICE: Improving Panoptic Narrative Detection and Segmentation with Cascading Collaborative Learning
IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 47(10), 8990 - 9004, 2025, 中国计算机学会A类
Jiayi Ji, Haowei Wang, Changli Wu, Yiwei Ma, Xiaoshuai Sun(通讯作者), Rongrong Ji.
JM3D & JM3D-LLM: Elevating 3D Representation with Joint Multi-Modal Cues.
IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 47(4), 2475 - 2492, 2025, 中国计算机学会A类
Yiwei Ma, Jiayi Ji, Xiaoshuai Sun(通讯作者), Yiyi Zhou, Xiaopeng Hong, Yongjian Wu, Rongrong Ji.
Image Captioning via Dynamic Path Customization.
IEEE Trans. Neural Networks Learn. Syst. (TNNLS) 36(4): 6203-6217, 2025, JCR-1区
Yinan Li, Jiayi Ji, Xiaoshuai Sun(通讯作者), Yiyi Zhou, Yunpeng Luo, Rongrong Ji.
M3ixup: A multi-modal data augmentation approach for image captioning.
Pattern Recognition (PR), 158: 110941, 2025, JCR-1区
Yubin Gu, Siting Chen, Xiaoshuai Sun(通讯作者), Jiayi Ji, Yiyi Zhou, Rongrong Ji.
Optical remote sensing image salient object detection via bidirectional cross-attention & attention restoration.
Pattern Recognition (PR), 164: 111478, 2025, JCR-1区
Ziyin Zhou, Yunpeng Luo, Yuanchen Wu, Ke Sun, Jiayi Ji, Ke Yan(通讯作者), Shouhong Ding, Xiaoshuai Sun(通讯作者), Yunsheng Wu, Rongrong Ji.
AIGI-Holmes: Towards Explainable and Generalizable AI-Generated Image Detection via Multimodal Large Language Models.
IEEE/CVF International Conference on Computer Vision(ICCV), 2025, 中国计算机学会A类
Weihuang Lin, Yiwei Ma, Xiaoshuai Sun(通讯作者), Shuting He, Jiayi Ji, Liujuan Cao, Rongrong Ji.
HRSeg: High-Resolution Visual Perception and Enhancement for Reasoning Segmentation.
ACM International Conference on Multimedia (ACM MM), 2025, 中国计算机学会A类
Yubin Gu, Yuan Meng, Jiayi Ji, Xiaoshuai Sun(通讯作者).
ACL: Activating Capability of Linear Attention for Image Restoration.
IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2025, 中国计算机学会A类
Ke Sun, Shen Chen, Taiping Yao, Ziyin Zhou, Jiayi Ji, Xiaoshuai Sun(通讯作者), Chia-Wen Lin, Rongrong Ji.
Towards General Visual-Linguistic Face Forgery Detection.
IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2025, 中国计算机学会A类
Jinlu Zhang, Jiji Tang, Rongsheng Zhang, Tangjie Lv, Xiaoshuai Sun(通讯作者).
StoryWeaver: A Unified World Model for Knowledge-Enhanced Story Character Customization.
Proceedings of the AAAI Conference on Artificial Intelligence (AAAI), 2025, 中国计算机学会A类
Yiwei Ma, Yijun Fan, Jiayi Ji, Haowei Wang, Haibing Yin, Xiaoshuai Sun(通讯作者), Rongrong Ji.
Creating High-quality 3D Content by Bridging the Gap Between Text-to-2D and Text-to-3D Generation.
ACM Transactions on Multimedia Computing, Communications and Applications (TOMM), doi.org/10.1145/3687475, 2024 JCR-1区
Yiwei Ma, Jiayi Ji, Ke Ye, Weihuang Lin, Zhibin Wang, Yonghan Zheng, Qiang Zhou, Xiaoshuai Sun(通讯作者), Rongrong Ji.
I2EBench: A Comprehensive Benchmark for Instruction-based Image Editing.
Advances in Neural Information Processing Systems (NeurIPS), 2024, 中国计算机学会A类
Danni Yang, Jiayi Ji, Yiwei Ma, Tianyu Guo, Haowei Wang, Xiaoshuai Sun(通讯作者), Rongrong Ji.
SAM as the Guide: Mastering Pseudo-Label Refinement in Semi-Supervised Referring Expression Segmentation.
International Conference on Machine Learning (ICML), 2024, Oral 中国计算机学会A类
Jinlu Zhang, Yiyi Zhou, Qiancheng Zheng, Xiaoxiong Du, Gen Luo, Jun Peng, Xiaoshuai Sun(通讯作者), Rongrong Ji.
Fast Text-to-3D-Aware Face Generation and Manipulation via Direct Cross-modal Mapping and Geometric Regularization.
International Conference on Machine Learning (ICML), 2024, 中国计算机学会A类
Yiwei Ma, Zhekai Lin, Jiayi Ji, Yijun Fan, Xiaoshuai Sun(通讯作者), Rongrong Ji.
X-Oscar: A Progressive Framework for High-quality Text-guided 3D Animatable Avatar Generation.
International Conference on Machine Learning (ICML), 2024, 中国计算机学会A类
Ziyin Zhou, Ke Sun, Zhongxi Chen, Huafeng Kuang, Xiaoshuai Sun(通讯作者), Rongrong Ji.
StealthDiffusion: Towards Evading Diffusion Forensic Detection through Diffusion Model.
ACM Multimedia (ACM MM), 2024, 中国计算机学会A类
Shengxin Chen, Gen Luo, Yiyi Zhou, Xiaoshuai Sun(通讯作者), Guannan Jiang, Rongrong Ji.
QueryMatch: A Query-based Contrastive Learning Framework for Weakly Supervised Visual Grounding.
ACM Multimedia (ACM MM), 2024, 中国计算机学会A类
Zhipeng Qian, Yiwei Ma, Jiayi Ji, Xiaoshuai Sun(通讯作者).
X-RefSeg3D: Enhancing Referring 3D Instance Segmentation via Structured Cross-Modal Graph Neural Networks.
Proceedings of the AAAI Conference on Artificial Intelligence (AAAI), 2024, 中国计算机学会A类
Siyu Zou, Jiji Tang, Yiyi Zhou, Jing He, Chaoyi Zhao, Rongsheng Zhang, Zhipeng Hu, Xiaoshuai Sun(通讯作者).
Towards Efficient Diffusion-Based Image Editing with Instant Attention Masks.
Proceedings of the AAAI Conference on Artificial Intelligence (AAAI), 2024, 中国计算机学会A类
Danni Yang, Ruohan Dong, Jiayi Ji, Yiwei Ma, Haowei Wang, Xiaoshuai Sun(通讯作者), Rongrong Ji.
Exploring Phrase-Level Grounding with Text-to-Image Diffusion Model.
European Conference on Computer Vision (ECCV), 2024, 中国计算机学会B类
Zhipeng Qian, Yiwei Ma, Zhekai Lin, Jiayi Ji, Xiawu Zheng, Xiaoshuai Sun(通讯作者), Rongrong Ji. Multi-branch Collaborative Learning Network for 3D Visual Grounding.
European Conference on Computer Vision (ECCV), 2024, 中国计算机学会B类
Zhipeng Qian, Pei Zhang, Baosong Yang, Kai Fan, Yiwei Ma, Derek F. Wong, Xiaoshuai Sun(通讯作者), Rongrong Ji.
AnyTrans: Translate AnyText in the Image with Large Scale Models.
Conference on Empirical Methods in Natural Language Processing( EMNLP), 2024, 中国计算机学会B类
Jiayi Ji, Xiaoyang Huang, Xiaoshuai Sun(通讯作者),Yiyi Zhou, Gen Luo, Liujuan Cao, Jianzhuang Liu.
Multi-Branch Distance-Sensitive Self-Attention Network for Image Captioning.
IEEE Transactions on Multimedia (TMM), 25: 3962-3974 (2023), JCR-1区
Yiwei Ma, Haowei Wang, Xiaoqing Zhang, Guannan Jiang, Xiaoshuai Sun(通讯作者), Weilin Zhuang, Jiayi Ji, Rongrong Ji.
X-Mesh: Towards Fast and Accurate Text-driven 3D Stylization via Dynamic Textual Guidance.
IEEE/CVF International Conference on Computer Vision (ICCV), 2023, 中国计算机学会A类
Jingjia Huang, Yinan Li, Jiashi Feng, Xinglong Wu, Xiaoshuai Sun(通讯作者), Rongrong Ji.
Clover: Towards A Unified Video-Language Alignment and Fusion Model.
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2023, 中国计算机学会A类
Lei Jin, Gen Luo, Yiyi Zhou, Xiaoshuai Sun(通讯作者) , Guannan Jiang , Annan Shu , Rongrong Ji.
RefCLIP: A Universal Teacher for Weakly Supervised Referring Expression Comprehension.
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2023, 中国计算机学会A类
Haowei Wang, Jiji Tang, Jiayi Ji, Xiaoshuai Sun(通讯作者), Rongsheng Zhang, Yiwei Ma, Minda Zhao, Lincheng Li, Zeng Zhao, Tangjie Lv, Rongrong Ji.
Beyond First Impressions: Integrating Joint Multi-modal Cues for Comprehensive 3D Representation.
ACM Multimedia (ACM MM)，2023, 中国计算机学会A类
Yiwei Ma, Xiaoshuai Sun(通讯作者), Jiayi Ji, Guannan Jiang, Weilin Zhuang, Rongrong Ji.
Beat: Bi-directional One-to-Many Embedding Alignment for Text-based Person Retrieval.
ACM Multimedia (ACM MM)，2023, 中国计算机学会A类
Xiaoxiong Du, Jun Peng, Yiyi Zhou, Jinlu Zhang, Siting Chen, Guannan Jiang, Xiaoshuai Sun(通讯作者), Rongrong Ji.
PixelFace+: Towards Controllable Face Generation and Manipulation with Text Descriptions and Segmentation Masks.
ACM Multimedia (ACM MM)，2023, 中国计算机学会A类
Haowei Wang, Jiayi Ji, Yiyi Zhou, Yongjian Wu, Xiaoshuai Sun(通讯作者).
Towards Real-Time Panoptic Narrative Grounding by an End-to-End Grounding Network.
Proceedings of the AAAI Conference on Artificial Intelligence (AAAI), 2023, 中国计算机学会A类
Mingrui Wu, Jiaxin Gu, Yunhang Shen, Mingbao Lin, Chao Chen, Xiaoshuai Sun(通讯作者).
End-to-End Zero-Shot HOI Detection via Vision and Language Knowledge Distillation.
Proceedings of the AAAI Conference on Artificial Intelligence (AAAI), 2023, 中国计算机学会A类
Yiwei Ma , Jiayi Ji , Xiaoshuai Sun(通讯作者) , Yiyi Zhou , Rongrong Ji.
Towards local visual modeling for image captioning.
Pattern Recognition (PR) 138: 109420 (2023) 2023, JCR-1区
Yiwei Ma, Jiayi Ji, Xiaoshuai Sun(通讯作者),Yiyi Zhou, Yongjian Wu, Feiyue Huang, Rongrong Ji.
Knowing What It Is: Semantic-Enhanced Dual Attention Transformer.
IEEE Transactions on Multimedia (TMM), 25: 3723-3736 (2023), JCR-1区
Jiayi Ji, Yiwei Ma, Xiaoshuai Sun(通讯作者), Yiyi Zhou, Yongjian Wu, Rongrong Ji.
Knowing What to Learn: A Metric-Oriented Focal Mechanism for Image Captioning.
IEEE Transactions on Image Processing (TIP), 31: 4321-4335 (2022), JCR-1区, 中国计算机学会A类
Yiwei Ma, Guohai Xu, Xiaoshuai Sun(通讯作者), Ming Yan, Ji Zhang, Rongrong Ji.
X-CLIP: End-to-End Multi-grained Contrastive Learning for Video-Text Retrieval.
ACM International Conference on Multimedia (ACM MM), 2022, 中国计算机学会A类
Mingrui Wu, Xuying Zhang, Xiaoshuai Sun(通讯作者), Yiyi Zhou, Chao Chen, Jiaxin Gu, Xing Sun, Rongrong Ji.
DIFNet: Boosting Visual Information Flow for Image Captioning.
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2022, 中国计算机学会A类
Yiyi Zhou, Tianhe Ren, Chaoyang Zhu, Xiaoshuai Sun(通讯作者), Jianzhuang Liu, Xinghao Ding, Mingliang Xu, Rongrong Ji.
TRAR: Routing the Attention Spans in Transformer for Visual Question Answering.
International Conference on Computer Vision (ICCV), 2021, 中国计算机学会A类
Xuying Zhang, Xiaoshuai Sun(通讯作者), Yunpeng Luo, Jiayi Ji, Yiyi Zhou, Yongjian Wu, Feiyue Huang, Rongrong Ji.
RSTNet: Captioning With Adaptive Attention on Visual and Non-Visual Words.
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2021, 中国计算机学会A类
Jiayi Ji, Yunpeng Luo, Xiaoshuai Sun(通讯作者), Fuhai Chen, Gen Luo, Yongjian Wu, Yue Gao, Rongrong Ji.
Improving Image Captioning by Leveraging Intra- and Inter-layer Global Representation in Transformer Network.
Proceedings of the AAAI Conference on Artificial Intelligence (AAAI), 2021, 中国计算机学会A类
Yunpeng Luo, Jiayi Ji, Xiaoshuai Sun(通讯作者), Liujuan Cao, Yongjian Wu, Feiyue Huang, Chia-Wen Lin, Rongrong Ji.
Dual-Level Collaborative Transformer for Image Captioning.
Proceedings of the AAAI Conference on Artificial Intelligence (AAAI), 2021, 中国计算机学会A类
Yiyi Zhou, Rongrong Ji, Xiaoshuai Sun(通讯作者), Gen Luo, Xiaopeng Hong, Jinsong Su, Xinghao Ding, Ling Shao.
K-armed Bandit based Multi-Modal Network Architecture Search for Visual Question Answering.
ACM International Conference on Multimedia (ACM MM), 2020, 中国计算机学会A类
Xiaoshuai Sun(第一作者), Xuying Zhang, Liujuan Cao, Yongjian Wu, Feiyue Huang, Rongrong Ji.
Exploring Language Prior for Mode-Sensitive Visual Attention Modeling.
ACM International Conference on Multimedia (ACM MM), 2020, 中国计算机学会A类
Jiayi Ji, Xiaoshuai Sun(通讯作者), Yiyi Zhou, Rongrong Ji, Fuhai Chen, Jianzhuang Liu, Qi Tian.
Attacking Image Captioning Towards Accuracy-Preserving Target Words Removal.
ACM International Conference on Multimedia (ACM MM), 2020, 中国计算机学会A类
Yiyi Zhou, Rongrong Ji, Jinsong Su, Xiangming Li, Xiaoshuai Sun(通讯作者).
Free VQA Models from Knowledge Inertia by Pairwise Inconformity Learning.
Proceedings of the AAAI Conference on Artificial Intelligence (AAAI), 2019, 中国计算机学会A类
Xiaoshuai Sun(第一作者), Jiewei Cao, Chao Li, Lei Zhu, Heng Tao Shen.
Web-Based Semantic Fragment Discovery for Online Lingual-Visual Similarity.
Proceedings of the AAAI Conference on Artificial Intelligence (AAAI), 2017, 中国计算机学会A类
Xiaoshuai Sun(第一作者), Zi Huang, Hongzhi Yin, Heng Tao Shen.
An Integrated Model for Effective Saliency Prediction.
Proceedings of the AAAI Conference on Artificial Intelligence (AAAI), 2017, 中国计算机学会A类
Xiaoshuai Sun(第一作者), Hongxun Yao, Rongrong Ji, Xian-Ming Liu.
Toward Statistical Modeling of Saccadic Eye-Movement and Visual Saliency.
IEEE Transactions on Image Processing (TIP), 23(11): 4649-4662 (2014), JCR-1区, 中国计算机学会A类
Xiaoshuai Sun(第一作者), Xin-Jing Wang, Hongxun Yao, Lei Zhang.
Exploring Implicit Image Statistics for Visual Representativeness Modeling.
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2013, 中国计算机学会A类
Xiaoshuai Sun(第一作者), Hongxun Yao, Rongrong Ji.
What Are We Looking For: Towards Statistical Modeling of Saccadic Eye Movements and Visual Saliency.
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2012, 中国计算机学会A类
Xiaoshuai Sun(第一作者), Hongxun Yao.
Memorable Basis: Towards Human-Centralized Sparse Representation.
ACM International Conference on Multimedia (ACM MM), 2012, 中国计算机学会A类
Xiaoshuai Sun(第一作者), Hongxun Yao, Rongrong Ji, Xianming Liu, Pengfei Xu.
Unsupervised Fast Anomaly Detection in Crowds.
ACM International Conference on Multimedia (ACM MM), 2011, 中国计算机学会A类
Xiaoshuai Sun(第一作者), Hongxun Yao, Rongrong Ji, Shaohui Liu.
Photo Assessment based on Computational Visual Attention Model.
ACM International Conference on Multimedia (ACM MM), 2009, 中国计算机学会A类