AutoSign：连续手语识别的直接姿态到文本翻译

连续识别手语手势并将其转换为注释文本，在听力正常人群与听障群体之间搭建沟通桥梁具有关键作用。该任务需要识别并解释手语者的手部、面部和身体姿态，由于涉及这些特征的组合而充满挑战。

传统连续手语识别（CSLR）方法依赖多阶段流程：首先提取视觉特征，然后使用CTC或基于HMM的方法将变长序列与目标注释对齐。然而，这些基于对齐的方法存在阶段间错误传播、过拟合问题，且由于中间注释表示的瓶颈效应，难以实现词汇表的扩展性。

为克服这些限制，提出AutoSign模型——一种仅解码器的自回归Transformer，能够直接将姿态序列翻译为自然语言文本，完全绕过传统对齐机制。这种仅解码器方法使模型无需CTC损失即可直接映射特征与注释，同时直接学习注释中的文本依赖关系。

该方法采用1D CNN构建时序压缩模块以高效处理姿态序列，随后使用预训练的阿拉伯语解码器AraGPT2生成文本（注释）。通过全面消融研究证实，手部和身体姿态为手语者无关的CSLR提供了最具区分性的特征。

通过消除多阶段流程，AutoSign在Isharah-1000数据集上取得显著改进，相比现有最佳方法将WER分数提升高达6.1%。

本文将被收录于ICCV 2025首届多模态手语识别研讨会

手语识别突破：AutoSign实现姿态到文本直接翻译