数学基础
/
Feb 09, 2026
Step 7 07. 序列模型与 RNN:时间的记忆
<!-- Title: 07. 序列模型与 RNN:时间的记忆 -->
<!-- Series: 深度学习数学基础 (ID: 10) -->
<!-- Author: admin -->
# 序列模型与 RNN:时间的记忆
## 1. 当数据有了顺序
图片是空间的(像素排列),而文本、语音、股票走势是**时间**的。
对于序列数据,前一个输入会影响后一个输入。
* “我饿了,我想去吃__”。(火锅?饭?填充词取决于前面的“饿”)。
全连接网络和 CNN 很难处理这种变长、有依赖的数据。
## 2. RNN (循环神经网络) 的数学结构
RNN 的核心在于:**它有一个“隐状态” (Hidden State),充当记忆单元。**
$$ h_t = \tanh(W_{hh} h_{t-1} + W_{xh} x_t) $$
$$ y_t = W_{hy} h_t $$
* $x_t$: 现在的输入。
* $h_{t-1}$: 上一时刻的记忆。
* $h_t$: 更新后的记忆。
RNN 就像一个抄写员,每读一个字,就更新一下脑子里的理解,并把这个理解带到读下一个字的时候。
## 3. BPTT 与梯度消失
训练 RNN 需要使用 **BPTT (Backpropagation Through Time)**。
这本质上是把 RNN 按时间展开成一个超深的网络。
回顾我们在[微积分篇](articles/248.md)讲的**链式法则**:
如果时间跨度很长(例如 100 个词),梯度需要连乘 100 次矩阵 $W_{hh}$。
* 如果 $W_{hh}$ 的特征值 $< 1$,梯度指数级衰减 -> **梯度消失**(忘得快)。
* 如果 $W_{hh}$ 的特征值 $> 1$,梯度指数级爆炸 -> **梯度爆炸**(发疯)。
这就是为什么原生 RNN 很难处理长序列。
后来,**LSTM** 和 **GRU** 通过引入“门控机制”(Gate),人工控制“遗忘”和“输入”,缓解了这个问题。
## 4. 结语
RNN 赋予了神经网络“短期记忆”。
虽然现在 Transformer 已经取代了 RNN 在 NLP 中的地位,但 RNN 对于理解序列建模和动态系统仍然至关重要。
P
潘卫
南京市沉思波网络科技有限责任公司创始人、CEO
您的观点 (可选)
🎁 注册账号,同步您的个性化学习路径