计算机视觉研究的多领域突破

细粒度时尚表征学习

时尚物品具有全局属性（如"裙长"）和局部属性（如"领口样式"）。传统方法独立学习每个属性的表征，忽略了属性间共享的视觉统计特征。研究人员将表征学习视为多任务学习问题，在全局结构上施加聚类级约束，显著提升了时尚检索性能。

现代文本识别模型将检测和识别整合到端到端框架中，但难以处理尺度变化和任意旋转角度的文本。GLASS注意力机制融合共享主干网络提取的全局特征与经过尺寸调整、正立方向的高分辨率单词裁剪局部特征，在多个公开基准测试中达到最先进水平。

PersonPath22数据集规模超过现有高质量多目标追踪数据集一个数量级，包含丰富元数据注释，使研究者能够评估追踪器在不同场景条件下的表现。

现有自监督视频学习方法未充分利用时序运动信息。MaCLR方法包含视觉和运动两条通路，通过新型跨模态对比目标使运动通路指导视觉通路捕捉相关运动线索。

PSS方法通过迭代选择高度同质但远离已知类别的未标记样本，利用聚类生成高质量伪标签，逐步提升特征泛化能力，避免对未见类别数量的先验假设。

传统方法寻找线性轨迹控制GAN输出。REDs提出非线性轨迹方法，实现前所未有的输出控制能力，包括在变化某些特征时固定其他指定特征。

MoFSOD基准包含10个不同领域数据集，分析表明在多领域场景下，微调作为少样本目标检测的基线方法表现优于预期。

VisA数据集包含12个工业对象的10,821张高分辨率图像。SPot-the-Difference(SPD)框架通过自监督对比学习正则化提升异常检测性能。

TD-Road将问题分解为关键点预测和连通性预测两个子任务，直接生成道路图输出，相比传统自下而上方法有显著改进。

REG-NAS包含架构约束和搜索奖励两个创新组件，在保持准确率的同时将负翻转率降低33-48%。

SPE-FR方法基于参数化贝叶斯建模，无需完整身份标签即可评估人脸验证系统性能并检测人口统计偏差。

X-DETR模型包含目标检测器、语言编码器和视觉语言对齐模块三个主要组件，在开放词汇目标检测等任务中表现出色。