计算机视觉研究在ECCV的全面展示

本文详细介绍了某中心在ECCV 2022上展示的计算机视觉研究成果,涵盖异常检测、道路网络提取、神经网络架构搜索等多个前沿技术领域,展示了自监督学习、多任务学习等创新方法在视觉任务中的应用与突破。

计算机视觉研究在ECCV的全面展示

某中心在本届欧洲计算机视觉会议(ECCV)上的贡献反映了其在研究兴趣上的多样性。以下是对包含某中心科学家作者的十余篇ECCV论文主题与方法的快速指南。

细粒度时尚表征学习

时尚同时具有全局属性(如“裙长”)和局部属性(如“领口样式”)。这些属性的准确表征对于时尚检索和推荐等任务至关重要,但独立学习每个属性的表征会忽略属性间共享的视觉统计信息。研究人员将表征学习视为多任务学习问题,对全局结构实施集群级约束。学习到的表征大幅提升了时尚检索性能。

GLASS:场景文本检测的全局到局部注意力机制

现代文本检测模型将文本检测和识别结合到单一端到端框架中,其中两项任务通常依赖于共享的全局特征图。然而,此类模型难以识别跨尺度变化(较小或较大文本)和任意单词旋转角度的文本。研究人员提出了一种名为GLASS的新型注意力机制,用于融合全局和局部特征。全局特征从共享主干网络提取,而局部特征则在调整大小、高分辨率且具有直立方向的单词裁剪上单独计算。GLASS在多个公共基准测试中实现了最先进的结果,并且研究人员证明它可以与其他文本检测解决方案集成,提升其性能。

大规模真实世界多人跟踪

本文提出了一个新的多人跟踪数据集——PersonPath22,其规模比现有高质量多目标跟踪数据集大一个数量级。PersonPath22数据集专门来源广泛,提供多种条件,其标注包含丰富的元数据,允许沿这些不同维度评估跟踪器的性能。其大规模真实世界训练和测试数据使社区能够更好地理解多人跟踪系统在一系列场景和条件下的性能。

MaCLR:视频表征的运动感知对比学习

尝试使用自监督学习进行视频处理已取得一些成功,但现有方法未明确利用从时间序列导出的运动信息,这对于监督动作识别任务非常重要。研究人员提出了一种自监督视频表征学习方法,在训练期间明确建模运动线索。该方法名为MaCLR,包含视觉和运动两条路径,通过一种新颖的跨模态对比目标连接,使运动路径能够引导视觉路径关注相关运动线索。

PSS:开放世界视觉表征学习的渐进式样本选择

在计算机视觉中,开放世界表征学习是为训练期间未见过的图像类别学习表征的挑战。现有方法做出不切实际的假设,例如预先知道未见图像所属的类别数量,或能够提前确定哪些未标记训练样本属于未见类别。研究人员的新颖渐进方法避免了此类假设,在每次迭代中选择高度同质但属于与当前已知类别集距离较远的类别的未标记样本。通过对这些选定样本进行聚类生成的高质量伪标签然后迭代地改进特征泛化。

Rayleigh EigenDirections (REDs):多维特征的非线性GAN潜在空间遍历

生成对抗网络(GANs)可以将潜在空间中的点映射到图像,产生极其真实的合成数据。过去控制GAN输出的尝试寻找通过空间的线性轨迹,这些轨迹大致对应于特定图像特征的连续变化。研究人员提出了一种寻找通过空间的非线性轨迹的新方法,提供了对GAN输出的前所未有的控制,包括在保持指定图像特征固定的同时变化其他特征的能力。

重新思考多域基准上的少样本目标检测

大多数关于少样本目标检测(FSOD)的现有工作集中在预训练和少样本学习数据集来自相似域的设置上。研究人员提出了一个多域少样本目标检测(MoFSOD)基准,包含来自广泛域的10个数据集,以评估FSOD算法在更广泛应用中的性能。他们全面分析了冻结层、不同架构和不同预训练数据集对FSOD性能的影响,得出了几个令人惊讶的结论。其中之一是,与先前信念相反,在多域基准上,微调(FT)是FSOD的一个强大基线。

SPot-the-Difference:异常检测和分割的自监督预训练

视觉异常检测常用于工业质量检测。本文提出了一个新的数据集和一种新的ImageNet预训练自监督学习方法,以改进在1类和2类5/10/高样本训练设置中的异常检测和分割。视觉异常(VisA)数据集包含10,821张高分辨率彩色图像(9,621张正常样本和1,200张异常样本),覆盖三个域中的12个对象,使其成为迄今为止最大的工业异常检测数据集之一。本文还提出了一种新的自监督框架——SPot-the-Difference(SPD)——可以规范对比自监督和监督预训练,以更好地处理异常检测任务。

TD-Road:整体图构建的自顶向下道路网络提取

从卫星图像中提取道路网络对于构建丰富地图和实现路线规划与导航中的众多应用至关重要。先前的基于图的方法使用自底向上方法,估计局部信息并迭代扩展图。相比之下,本文提出了一种自顶向下方法,将问题分解为两个子任务:关键点预测和连接性预测。与先前方法不同,所提出的方法将图结构(即节点位置和它们之间的连接)作为深度神经网络的训练监督,并通过推理直接生成道路图输出。

面向回归自由的多样化计算平台神经网络

商业机器学习模型不断更新,虽然更新后的模型可能平均提高性能,但在其曾经正确处理过的特定输入上仍然可能回归——即遭受“负翻转”。本文介绍了回归约束的神经架构搜索(REG-NAS),它包含两个组件:(1)一种新颖的架构约束,使较大模型能够包含较小模型的所有权重,从而最大化权重共享;(2)一种新颖的搜索奖励,将top-1准确率和负翻转纳入架构搜索指标。相对于现有最先进方法,REG-NAS实现了33-48%的负翻转减少。

人脸识别中的无监督和半监督偏差基准测试

本文介绍了人脸识别的半监督性能评估(SPE-FR),一种统计方法,用于在身份标签不可用或不完整时评估人脸验证系统的性能和算法偏差。该方法基于人脸嵌入相似性得分的参数贝叶斯建模,并产生点估计、性能曲线和反映估计过程中不确定性的置信带。实验表明,SPE-FR可以准确评估没有身份标签的数据上的性能,并自信地揭示系统性能中的人口统计偏差。

X-DETR:实例级视觉语言任务的多功能架构

本文解决了实例级视觉语言任务的挑战,这些任务需要自由形式语言与图像内的对象对齐,而不是与图像本身对齐。本文介绍了X-DETR模型,其架构具有三个主要组件:对象检测器、语言编码器和视觉语言对齐模块。视觉和语言流直到最后才独立,它们使用高效的点积操作进行对齐。这种简单架构在多个实例级视觉语言任务(如开放词汇对象检测)中显示出良好的准确性和快速速度。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计