数学基础
/
Feb 08, 2026
Step 4 04. 微积分核心:链式法则与反向传播
<!-- Title: 04. 微积分核心:链式法则与反向传播 -->
<!-- ID: 248 -->
<!-- Series: 深度学习数学基础 (ID: 10) -->
<!-- Author: admin -->
# 微积分核心:链式法则与反向传播
## 1. 神经网络的“阿喀琉斯之踵”
早期的神经网络(感知机)因为无法训练多层网络而陷入寒冬。
直到**反向传播 (Backpropagation)** 算法的普及,深度学习才迎来了爆发。
反向传播解决了什么问题?
它解决的是:**当输出结果错了(Loss 很高),我该怎么调整第一层那个离输出十万八千里远的权重?**
## 2. 链式法则 (Chain Rule):传话游戏
微积分里的链式法则是反向传播的数学灵魂。
**公式**:
如果有 $y = f(u)$ 且 $u = g(x)$,那么 $y$ 对 $x$ 的导数是:
$$ \frac{dy}{dx} = \frac{dy}{du} \cdot \frac{du}{dx} $$
**直观理解**:
想象一个传话游戏:
1. $x$ 变大一点点,导致 $u$ 变大了 2 倍 ($\frac{du}{dx} = 2$)。
2. $u$ 变大一点点,导致 $y$ 变大了 3 倍 ($\frac{dy}{du} = 3$)。
3. 那么,$x$ 变大一点点,最终导致 $y$ 变大了 $2 \times 3 = 6$ 倍。
这就是**梯度的传递**。
## 3. 计算图 (Computational Graph)
现代深度学习框架(PyTorch/TensorFlow)的核心就是**计算图**。
假设我们有一个简单的网络:
$$ L = (w \cdot x + b - y)^2 $$
我们可以把它拆解成一系列原子操作:
1. $z = w \cdot x$
2. $h = z + b$
3. $diff = h - y$
4. $L = diff^2$
**前向传播 (Forward)**:从上往下算,算出 $L$。
**反向传播 (Backward)**:从下往上算梯度。
* $\frac{dL}{ddiff} = 2 \cdot diff$
* $\frac{dL}{dh} = \frac{dL}{ddiff} \cdot \frac{ddiff}{dh} = (2 \cdot diff) \cdot 1$
* ...
* 一直推导到 $\frac{dL}{dw}$。
## 4. 梯度消失 (Vanishing Gradient)
理解了链式法则,就能理解深度学习著名的痛点:**梯度消失**。
如果链条非常长(网络很深),而且中间每一环的导数都小于 1(例如 Sigmoid 函数的导数最大只有 0.25)。
那么一连串乘起来:$0.25 \times 0.25 \times ... \times 0.25$。
结果会趋近于 **0**。
这意味着:**输出层的误差信号,传到第一层时已经微弱得听不见了。** 第一层的参数根本得不到更新,网络就学不动了。
这也是为什么后来 **ReLU** (导数为1) 和 **ResNet** (残差连接) 如此重要的原因。
## 5. 结语
反向传播是上帝的恩赐。
它让我们可以训练几百层的深层网络,让计算机拥有了“深邃”的思考能力。
而这一切,都建立在简单而优雅的**链式法则**之上。
P
潘卫
南京市沉思波网络科技有限责任公司创始人、CEO
您的观点 (可选)
🎁 注册账号,同步您的个性化学习路径