ICCV 2023计算机视觉论文技术解析

本文系统梳理了某中心在ICCV 2023发表的计算机视觉研究成果,涵盖3D物体检测、动作识别、数据表示、图像分割等前沿技术,重点解析了基于变换器的域自适应检测、层次化主动学习框架等创新方法。

研究领域

计算机视觉

会议信息

ICCV 2023

论文技术概览

3D物体检测

ImGeoNet: 通过图像诱导的几何感知体素表示实现多视角3D物体检测
3-DHAL3D: 基于层次化主动学习的细粒度3D部件标注框架

动作识别

SkeleTR: 面向自然场景的骨架动作识别技术

数据表示

线性语义空间: 视觉语言模型中的组合结构研究
运动引导掩码: 时空表示学习的创新方法

视频生成

SIDGAN: 基于平移不变学习的高分辨率配音视频生成技术

地理空间模型

持续预训练构建地理空间基础模型的方法探索

图神经网络

自适应邻域学习的图神经网络优化方案

图像检索

FashionNTM: 通过级联记忆实现多轮时尚图像检索

图像分割

粗到细的完形分割: 结合形状先验的完形分割技术
LD-ZNet: 基于潜在扩散的文本引导图像分割方法
视频完形分割的物体中心表示新思路

信息提取

DocTr: 面向文档结构化信息提取的文档变换器

机器遗忘

SAFE: 基于分片图的机器遗忘技术

目标检测

双向对齐: 基于变换器的域自适应检测方法
无监督开放词汇视频物体定位技术

对象跟踪

物体中心的多目标跟踪框架

场景文本识别

CLIPTER: 全局视觉场景下的文本识别技术
视觉与文本联合理解模型探索

迁移学习

PADCLIP: 无监督域自适应中的自适应去偏伪标注技术

视频检索

基于文本条件特征对齐的音频增强文本-视频检索

视频分割

MEGA: 电影视频分割的多模态对齐聚合与蒸馏技术

技术标签

目标检测、图像分割、数据表示、ICCV

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计