神经编码实现更高效的丢失音频包恢复

数据包丢失问题

实时语音通信中，数据包丢失会导致语音质量严重下降。传统包丢失隐藏(PLC)算法仅能处理数十毫秒的短时丢失，而现有冗余方案要么覆盖范围有限，要么带宽效率低下。

深度冗余技术利用神经声码器从稀疏频谱快照重建丰富语音信号的能力，通过神经编码器进一步压缩这些快照。该技术能够在单个数据包中包含多达50个先前数据包的信息（相当于1秒语音），带宽增加极小。

采用LPCNet神经声码器，该自回归模型能够根据先前样本生成最佳拟合音频样本。声码器输入是描述语音频谱的声学特征，这些特征轻量且可预测，非常适合传输大量冗余数据。

编码器每20毫秒生成包含过去40毫秒语音信息的新向量。通过利用连续块之间的相关性，编码块间差异而非独立表示每个块。解码时采用时间反向解码策略，优先处理最近音频内容。

采用率失真优化变分自编码器(RDO-VAE)最小化冗余编码比特率。该方法直接限制表示编码所需的比特数，通过熵编码量化拉普拉斯分布自动优化特征表示，训练过程自动丢弃无用维度。

在完整PLC挑战数据集上的评估显示：

该技术展示了神经网络在改善实时通信质量方面的应用潜力，相关开源实现已提供开发版本，并正推动Opus标准的兼容性更新。

相关实现代码和详细技术规范可通过开发分支获取，欢迎反馈和外部协作。