第八届中国模式识别与计算机视觉学术会议(The 8th Chinese Conference on Pattern Recognition and Computer Vision, PRCV 2025)公布了论文录用结果,公司鲁棒视觉智能感知技术团队共有3篇论文被PRCV 2025录用。第一作者分别是硕士生张冬旭(导师:张凯兵教授),硕士生丁明辉(导师:张凯兵教授),硕士生吴晓凤(导师:时光副教授)。PRCV是国内模式识别和计算机视觉领域顶级学术盛会,也是国际上重要且受到国际学术界认可会议,进入CCF分区(CCF-C)。本次会议由中国图象图形学学会(CSIG)、中国人工智能学会(CAAI)、中国计算机学会(CCF)和中国自动化学会(CAA)联合主办,上海交通大学承办。根据会议官方统计,本次PRCV 2025会议总投稿2370篇,录用701篇,录用率为29.58%。会议将于2025年10月15日-18日在上海国家会展中心举办。论文简要介绍如下:
题目:DMR-YOLO: Dual-Modality Robust YOLO for Small Object Detection in Infrared-RGB UAV Imagery
概述:红外-RGB双模态小目标检测在交通监测、搜救等全天候无人机应用中具有重要意义。然而,现有通用检测方法(如YOLOv12)在应对无人机图像中复杂背景干扰和显著尺度变化时仍存在明显不足。此外,当前许多跨模态对齐与融合策略计算开销较大,导致其在实际部署中面临困难。针对上述问题,论文提出了一种轻量化红外-RGB无人机图像小目标检测框架DMR-YOLO。该方法通过引入动态跨尺度自适应任务解耦头DCAT-Head实现高效的多尺度特征共享,并采用动态模态感知融合模块DMAF增强特定模态特征,将动态范围压缩与任务条件仿射变换相结合,从而实现红外与可见光模态特征的自适应对齐与融合。在DroneVehicle (IR-RGB)、POG(RGB)和HIT-UAV (IR)三个基准数据集上的实验结果表明,所提出的DMR-YOLO在无人机小目标检测任务中展现出优异的检测性能与稳健性,同时兼具较低的计算复杂度,具备良好的实际应用前景。

题目:Text2Printing: Controllable Textile Digital Printing Pattern Generation with Attention Modulation
概述:文本到图像的扩散生成模型旨在根据文本提示生成多样化且具有创造性的图像。然而,当该技术直接应用于纺织数码印花图案生成并结合给定布局条件时,常面临布局控制精度不足及多概念语义偏差等问题。针对上述挑战,本文提出Text2Printing,一种基于注意力调制的可控文本到图像生成方法。该方法通过引入边界框约束对ControlNet模型进行微调,并结合注意力调制机制,增强目标对象在指定区域内的注意力响应,从而提高生成图案的空间布局精度。为保持文本提示中组合语义的一致性,本文设计了一种语言结构引导策略,在交叉注意力层中重建语义映射关系,确保多概念场景下的语义完整性。此外,本文引入FreeU策略,对扩散过程中的U-Net主干及高频特征权重进行优化,有效提升生成图像的布局合理性与语义一致性。

题目:CAP-Shift: Domain Adaptive Nighttime Object Detection via Illumination Degradation and Confidence-Adaptive Pseudo Labeling
概述:域适应夜间目标检测(Domain Adaptive Nighttime Object Detection, DANOD)旨在利用已有的白天标注数据与夜间未标注数据,通过跨域知识迁移提升夜间目标检测性能。然而,该任务面临两大核心挑战:(1)源域(白天)与目标域(夜间)之间存在显著的域间差异;(2)伪标签质量不足易引入噪声,导致知识迁移失效。现有方法主要在RGB空间中进行图像退化,并采用固定阈值筛选伪标签,但这些策略难以模拟真实夜间场景,且无法确保伪标签的高质量。为此,本文提出一种无监督域适应夜间目标检测方法CAP-Shift,该方法由光照感知夜间增强模块、动态类别感知阈值自适应模块以及教师-员工框架组成。在光照感知夜间增强模块中,输入的RGB图像首先被转换至HSV颜色空间,并对亮度通道V进行Retinex分解,分别针对反射分量和照度分量进行细节增强与亮度退化,以实现从白天图像到夜间图像的合理转换。在动态类别感知阈值自适应模块中,设计了两阶段阈值筛选策略,并依据各类别预测置信度变化动态更新阈值,从而精准捕捉不同类别目标在训练过程中的检测难度变化。

(撰稿:时光 审核:张凯兵 闫小兵)