研究领域
计算机视觉
会议信息
ICCV 2023
论文技术概览
3D物体检测
ImGeoNet: 通过图像诱导的几何感知体素表示实现多视角3D物体检测
3-DHAL3D: 基于层次化主动学习的细粒度3D部件标注框架
动作识别
SkeleTR: 面向自然场景的骨架动作识别技术
数据表示
线性语义空间: 视觉语言模型中的组合结构研究
运动引导掩码: 时空表示学习的创新方法
视频生成
SIDGAN: 基于平移不变学习的高分辨率配音视频生成技术
地理空间模型
持续预训练构建地理空间基础模型的方法探索
图神经网络
自适应邻域学习的图神经网络优化方案
图像检索
FashionNTM: 通过级联记忆实现多轮时尚图像检索
图像分割
粗到细的完形分割: 结合形状先验的完形分割技术
LD-ZNet: 基于潜在扩散的文本引导图像分割方法
视频完形分割的物体中心表示新思路
信息提取
DocTr: 面向文档结构化信息提取的文档变换器
机器遗忘
SAFE: 基于分片图的机器遗忘技术
目标检测
双向对齐: 基于变换器的域自适应检测方法
无监督开放词汇视频物体定位技术
对象跟踪
物体中心的多目标跟踪框架
场景文本识别
CLIPTER: 全局视觉场景下的文本识别技术
视觉与文本联合理解模型探索
迁移学习
PADCLIP: 无监督域自适应中的自适应去偏伪标注技术
视频检索
基于文本条件特征对齐的音频增强文本-视频检索
视频分割
MEGA: 电影视频分割的多模态对齐聚合与蒸馏技术
技术标签
目标检测、图像分割、数据表示、ICCV