AutoSign:连续手语识别的直接姿态到文本翻译
连续识别手语手势并将其转换为注释文本,在听力正常人群与听障群体之间搭建沟通桥梁具有关键作用。该任务需要识别并解释手语者的手部、面部和身体姿态,由于涉及这些特征的组合而充满挑战。
传统连续手语识别(CSLR)方法依赖多阶段流程:首先提取视觉特征,然后使用CTC或基于HMM的方法将变长序列与目标注释对齐。然而,这些基于对齐的方法存在阶段间错误传播、过拟合问题,且由于中间注释表示的瓶颈效应,难以实现词汇表的扩展性。
为克服这些限制,提出AutoSign模型——一种仅解码器的自回归Transformer,能够直接将姿态序列翻译为自然语言文本,完全绕过传统对齐机制。这种仅解码器方法使模型无需CTC损失即可直接映射特征与注释,同时直接学习注释中的文本依赖关系。
该方法采用1D CNN构建时序压缩模块以高效处理姿态序列,随后使用预训练的阿拉伯语解码器AraGPT2生成文本(注释)。通过全面消融研究证实,手部和身体姿态为手语者无关的CSLR提供了最具区分性的特征。
通过消除多阶段流程,AutoSign在Isharah-1000数据集上取得显著改进,相比现有最佳方法将WER分数提升高达6.1%。
本文将被收录于ICCV 2025首届多模态手语识别研讨会