手语识别突破:AutoSign实现姿态到文本直接翻译

本文提出AutoSign模型,采用仅解码器的自回归Transformer架构,通过1D CNN进行时序压缩,直接实现从姿态序列到自然语言文本的端到端翻译,在Isharah-1000数据集上相比现有最佳方法将WER分数提升6.1%。

AutoSign:连续手语识别的直接姿态到文本翻译

连续识别手语手势并将其转换为注释文本,在听力正常人群与听障群体之间搭建沟通桥梁具有关键作用。该任务需要识别并解释手语者的手部、面部和身体姿态,由于涉及这些特征的组合而充满挑战。

传统连续手语识别(CSLR)方法依赖多阶段流程:首先提取视觉特征,然后使用CTC或基于HMM的方法将变长序列与目标注释对齐。然而,这些基于对齐的方法存在阶段间错误传播、过拟合问题,且由于中间注释表示的瓶颈效应,难以实现词汇表的扩展性。

为克服这些限制,提出AutoSign模型——一种仅解码器的自回归Transformer,能够直接将姿态序列翻译为自然语言文本,完全绕过传统对齐机制。这种仅解码器方法使模型无需CTC损失即可直接映射特征与注释,同时直接学习注释中的文本依赖关系。

该方法采用1D CNN构建时序压缩模块以高效处理姿态序列,随后使用预训练的阿拉伯语解码器AraGPT2生成文本(注释)。通过全面消融研究证实,手部和身体姿态为手语者无关的CSLR提供了最具区分性的特征。

通过消除多阶段流程,AutoSign在Isharah-1000数据集上取得显著改进,相比现有最佳方法将WER分数提升高达6.1%。

本文将被收录于ICCV 2025首届多模态手语识别研讨会

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计