学费了

# 微积分核心：链式法则与反向传播 ## 1. 神经网络的“阿喀琉斯之踵” 早期的神经网络（感知机）因为无法训练多层网络而陷入寒冬。直到**反向传播 (Backpropagation)** 算法的普及，深度学习才迎来了爆发。反向传播解决了什么问题？它解决的是：**当输出结果错了（Loss 很高），我该怎么调整第一层那个离输出十万八千里远的权重？** ## 2. 链式法则 (Chain Rule)：传话游戏微积分里的链式法则是反向传播的数学灵魂。 **公式**：如果有 $y = f(u)$ 且 $u = g(x)$，那么 $y$ 对 $x$ 的导数是： $$ \frac{dy}{dx} = \frac{dy}{du} \cdot \frac{du}{dx} $$ **直观理解**：想象一个传话游戏： 1. $x$ 变大一点点，导致 $u$ 变大了 2 倍 ($\frac{du}{dx} = 2$)。 2. $u$ 变大一点点，导致 $y$ 变大了 3 倍 ($\frac{dy}{du} = 3$)。 3. 那么，$x$ 变大一点点，最终导致 $y$ 变大了 $2 \times 3 = 6$ 倍。这就是**梯度的传递**。 ## 3. 计算图 (Computational Graph) 现代深度学习框架（PyTorch/TensorFlow）的核心就是**计算图**。假设我们有一个简单的网络： $$ L = (w \cdot x + b - y)^2 $$ 我们可以把它拆解成一系列原子操作： 1. $z = w \cdot x$ 2. $h = z + b$ 3. $diff = h - y$ 4. $L = diff^2$ **前向传播 (Forward)**：从上往下算，算出 $L$。 **反向传播 (Backward)**：从下往上算梯度。 * $\frac{dL}{ddiff} = 2 \cdot diff$ * $\frac{dL}{dh} = \frac{dL}{ddiff} \cdot \frac{ddiff}{dh} = (2 \cdot diff) \cdot 1$ * ... * 一直推导到 $\frac{dL}{dw}$。 ## 4. 梯度消失 (Vanishing Gradient) 理解了链式法则，就能理解深度学习著名的痛点：**梯度消失**。如果链条非常长（网络很深），而且中间每一环的导数都小于 1（例如 Sigmoid 函数的导数最大只有 0.25）。那么一连串乘起来：$0.25 \times 0.25 \times ... \times 0.25$。结果会趋近于 **0**。这意味着：**输出层的误差信号，传到第一层时已经微弱得听不见了。** 第一层的参数根本得不到更新，网络就学不动了。这也是为什么后来 **ReLU** (导数为1) 和 **ResNet** (残差连接) 如此重要的原因。 ## 5. 结语反向传播是上帝的恩赐。它让我们可以训练几百层的深层网络，让计算机拥有了“深邃”的思考能力。而这一切，都建立在简单而优雅的**链式法则**之上。

Step 4 04. 微积分核心：链式法则与反向传播

💬 评论 (0)

关卡列表

目录导航