近日,实验室在图像生成领域取得重要进展。由厦门大学人工智能研究院2023级博士生吴明瑞、2023级硕士生黄欧成、纪家沂博士后研究员、孙晓帅教授、曹刘娟教授、纪荣嵘教授等合作完成的论文 “ TraDiffusion: Trajectory-Based Training-Free Image Generation” 被国际学术期刊《International Journal of Computer Vision》(IJCV)接收。IJCV是CCF推荐的人工智能领域四个A类期刊之一,是人工智能、计算机视觉领域最重要的顶级学术期刊之一。

针对图像生成领域如何实现更精确和自然的控制,本文提出了一种创新的方法——TraDiffusion,这是一种基于轨迹的无训练可控文本生成图像(T2I)方法,旨在让用户通过简单的鼠标轨迹,轻松引导图像生成。TraDiffusion的核心创新在于设计了一个距离感知能量函数,该函数通过有效地指导潜变量来实现精准控制。具体而言,能量函数包括两部分:一是控制函数,将生成内容拉近到用户指定的轨迹区域;二是移动函数,减少与轨迹区域远离的部分的生成活动。通过这种方式,用户不仅可以引导图像生成的焦点在轨迹定义的区域内,还能自然地操控图像的细节和区域。该方法在无需大规模训练或模型重训练的情况下,实现了灵活且高效的图像生成控制。实验结果表明,TraDiffusionCOCO数据集上的表现出色,通过大量定性评估,证明了该方法能够简化和自然地实现对生成图像的控制,特别是在操控显著区域、属性和图像内的关系方面表现突出。此外,TraDiffusion还支持基于任意或增强轨迹的视觉输入,进一步提升了其应用潜力。TraDiffusion为文本生成图像(T2I)任务提供了一个有前景的新方向,突破了传统控制方式的局限,向更直观、灵活的图像生成方法迈出了重要的一步。

本论文作为图像生成领域的前沿研究工作,为可控的文生图及应用提供了新的思路与技术支撑,体现了团队在图像生成领域的前沿研究实力。

该论文代码已开源,相关链接如下

论文地址:https://link.springer.com/article/10.1007/s11263-025-02573-6

开源代码:https://github.com/OUCHENG-HUANG/TraDiffusion