可视化循环神经网络中的记忆机制

摘要

循环神经网络（RNN）的记忆能力在许多应用中仍面临挑战。本文提出通过梯度幅度可视化方法，分析不同循环单元（包括LSTM、GRU和嵌套LSTM）在自补全任务中的记忆模式。该方法可直观展示网络如何利用短期和长期上下文信息进行预测。

所有分析网络均采用简单RNN结构：

1
2
3
4


hℓ^t = 第ℓ层在时间t的输出
Unit = 选择的循环单元
(h_{ℓ-1}^t, h_ℓ^{t-1})，其中 h_0^t = x_t
y^t = Softmax(h_L^t)

理论上，时间依赖性使网络能在每次迭代中知晓之前所有序列信息，但这也导致梯度消失问题，使得长期依赖在训练中被忽略。

通过计算连接强度（connectivity）分析输入与输出的关联：

1

connectivity(t, t̃) = ||∂(h_L^{t̃})_k/∂x^t||_2

该指标表示期望输出对数与输入之间的梯度幅度，可有效揭示不同模型的长期上下文理解能力。

在自补全任务中观察到：

通过字符数-准确率曲线显示：

单纯比较准确率和交叉熵损失不足以评估模型性能。连接性可视化方法能直观展示模型如何利用历史输入进行预测，为模型选择和优化提供重要参考。本研究显示GRU模型在利用重复词汇和语义信息方面明显优于LSTM和嵌套LSTM。