学费了

# 激活函数：神经网络的“灵魂” ## 1. 为什么要激活函数？如果没有激活函数，神经网络会变成什么样？假设只有线性变换： * 第一层：$h_1 = W_1 x$ * 第二层：$h_2 = W_2 h_1 = W_2 (W_1 x) = (W_2 W_1) x$ 你看，无论叠加多少层，最终它都可以被合并成一个单一的线性矩阵 $W_{final}$。这就意味着，**深层网络退化成了单层线性模型**。它只能画直线，无法拟合复杂的曲线（比如人脸的轮廓）。 **激活函数 (Activation Function)** 引入了**非线性 (Non-linearity)**。它让神经网络有了“弯曲”空间的能力，从而能够逼近任意复杂的函数（万能近似定理）。 ## 2. 常见激活函数大阅兵 ### 1. Sigmoid / Tanh * **形状**：S 形曲线。将输入压缩到 $(0, 1)$ 或 $(-1, 1)$ 之间。 * **地位**：元老级。 * **缺点**： * **梯度消失**：两端平缓区的导数接近 0。 * **计算昂贵**：涉及指数运算。 * **现状**：中间层基本不用了，只用于输出层做二分类概率。 ### 2. ReLU (Rectified Linear Unit) * **公式**：$f(x) = \max(0, x)$ * **形状**：折线。负数归零，正数不变。 * **地位**：**当今霸主**。 * **优点**： * **计算极快**：只需要判断是否大于0。 * **解决梯度消失**：正区间的导数恒为 1，梯度可以无损传播。 * **缺点**：**Dead ReLU**。如果输入是负数，梯度直接为0，神经元彻底“死掉”不再更新。 ### 3. Softmax * **作用**：归一化。 * **场景**：多分类问题的**输出层**。 * **原理**：它把一堆任意实数，转化成**概率分布**（所有概率加起来等于 1）。 $$ \sigma(z)_i = \frac{e^{z_i}}{\sum e^{z_j}} $$ 它会“放大”最大的那个值，让强者更强（Soft Max）。 ## 3. 如何选择？ * **隐藏层 (Hidden Layer)**：无脑首选 **ReLU**（或其变体 Leaky ReLU, GELU）。它最快，效果最好。 * **输出层 (Output Layer)**： * 二分类：**Sigmoid** * 多分类：**Softmax** * 回归任务（预测房价）：**Linear** (不加激活函数) 或 **ReLU** (如果只有正值)。 ## 4. 结语激活函数是神经网络的开关。它决定了神经元是“被点燃”还是“保持沉默”。正是这些微小的非线性变换的亿万次叠加，涌现出了 AI 的智能。

Step 5 05. 激活函数：神经网络的“灵魂”

💬 评论 (0)

关卡列表

目录导航