计算机视觉前沿研究全景展示

本文系统介绍了某中心在ECCV 2022上展示的计算机视觉创新研究成果,涵盖自监督学习、神经网络架构搜索、异常检测等12项前沿技术,包括GLASS注意力机制、MaCLR视频表征学习和REG-NAS回归约束架构搜索等突破性进展。

计算机视觉前沿研究全景展示

研究概览

某中心在欧洲计算机视觉大会(ECCV 2022)上的研究成果展现了计算机视觉领域的多元化探索。以下是包含某中心科学家参与的12篇论文的技术要点解析。

关键技术突破

细粒度时尚表征学习

通过在线深度聚类方法,将全局属性(如裙长)与局部属性(如领口样式)统一建模为多任务学习问题。该方法通过施加集群级约束优化全局结构,显著提升时尚检索准确率。

GLASS:全局到局部注意力机制

针对场景文本检测难题,提出新型注意力机制GLASS,融合全局特征与局部特征。全局特征从共享主干网络提取,局部特征通过调整大小、高分辨率文字区域单独计算。在多个公开基准测试中达到最先进水平。

大规模多人跟踪数据集

发布PersonPath22数据集,规模超出现有高质量多目标跟踪数据集一个数量级。该数据集包含丰富元数据,支持在多维度条件下评估跟踪器性能。

MaCLR:运动感知视频表征学习

提出自监督视频表征学习方法,在训练中显式建模运动信息。包含视觉通路和运动通路,通过跨模态对比目标使运动通路指导视觉通路捕捉相关运动线索。

渐进式样本选择(PSS)

针对开放世界视觉表征学习,提出渐进式方法避免不现实假设。通过选择高度同质且远离已知类别的未标记样本,利用聚类生成高质量伪标签迭代改进特征泛化。

非线性GAN潜在空间遍历

提出REDs方法实现非线性潜在空间遍历,提供对GAN输出的精确控制,包括在改变某些特征时固定其他指定特征的能力。

多域少样本目标检测基准

构建包含10个跨域数据集的MoFSOD基准,全面分析层冻结、架构差异和预训练数据集对少样本检测性能的影响。研究发现微调方法在多域场景下表现优异。

自监督异常检测框架

提出SPot-the-Difference(SPD)自监督框架,可规范对比自监督和监督预训练,提升异常检测任务性能。同时发布包含10,821张高分辨率图像的VisA工业异常检测数据集。

自上而下路网提取方法

提出TD-Road方法将路网提取分解为关键点预测和连接性预测两个子任务,直接通过推理生成道路图输出,突破传统自下而上方法的局限。

回归约束神经架构搜索

提出REG-NAS方法包含两大创新:支持大模型包含小模型权重的架构约束,以及同时考虑Top-1准确率和负翻转的搜索奖励机制。相比现有方法减少33-48%的负翻转。

无监督人脸识别偏差评估

提出SPE-FR统计方法,基于参数化贝叶斯建模生成点估计、性能曲线和置信带,可在无身份标签数据上准确评估人脸验证系统性能并揭示人口统计偏差。

X-DETR:实例级视觉语言架构

提出三组件架构:目标检测器、语言编码器和视觉语言对齐模块。视觉与语言流在最终阶段通过高效点积操作对齐,在开放词汇目标检测等任务中展现优异准确率和速度。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计