数学基础
/
Feb 08, 2026
Step 5 05. 激活函数:神经网络的“灵魂”
<!-- Title: 05. 激活函数:神经网络的“灵魂” -->
<!-- ID: 249 -->
<!-- Series: 深度学习数学基础 (ID: 10) -->
<!-- Author: admin -->
# 激活函数:神经网络的“灵魂”
## 1. 为什么要激活函数?
如果没有激活函数,神经网络会变成什么样?
假设只有线性变换:
* 第一层:$h_1 = W_1 x$
* 第二层:$h_2 = W_2 h_1 = W_2 (W_1 x) = (W_2 W_1) x$
你看,无论叠加多少层,最终它都可以被合并成一个单一的线性矩阵 $W_{final}$。
这就意味着,**深层网络退化成了单层线性模型**。它只能画直线,无法拟合复杂的曲线(比如人脸的轮廓)。
**激活函数 (Activation Function)** 引入了**非线性 (Non-linearity)**。
它让神经网络有了“弯曲”空间的能力,从而能够逼近任意复杂的函数(万能近似定理)。
## 2. 常见激活函数大阅兵
### 1. Sigmoid / Tanh
* **形状**:S 形曲线。将输入压缩到 $(0, 1)$ 或 $(-1, 1)$ 之间。
* **地位**:元老级。
* **缺点**:
* **梯度消失**:两端平缓区的导数接近 0。
* **计算昂贵**:涉及指数运算。
* **现状**:中间层基本不用了,只用于输出层做二分类概率。
### 2. ReLU (Rectified Linear Unit)
* **公式**:$f(x) = \max(0, x)$
* **形状**:折线。负数归零,正数不变。
* **地位**:**当今霸主**。
* **优点**:
* **计算极快**:只需要判断是否大于0。
* **解决梯度消失**:正区间的导数恒为 1,梯度可以无损传播。
* **缺点**:**Dead ReLU**。如果输入是负数,梯度直接为0,神经元彻底“死掉”不再更新。
### 3. Softmax
* **作用**:归一化。
* **场景**:多分类问题的**输出层**。
* **原理**:它把一堆任意实数,转化成**概率分布**(所有概率加起来等于 1)。
$$ \sigma(z)_i = \frac{e^{z_i}}{\sum e^{z_j}} $$
它会“放大”最大的那个值,让强者更强(Soft Max)。
## 3. 如何选择?
* **隐藏层 (Hidden Layer)**:无脑首选 **ReLU**(或其变体 Leaky ReLU, GELU)。它最快,效果最好。
* **输出层 (Output Layer)**:
* 二分类:**Sigmoid**
* 多分类:**Softmax**
* 回归任务(预测房价):**Linear** (不加激活函数) 或 **ReLU** (如果只有正值)。
## 4. 结语
激活函数是神经网络的开关。
它决定了神经元是“被点燃”还是“保持沉默”。
正是这些微小的非线性变换的亿万次叠加,涌现出了 AI 的智能。
P
潘卫
南京市沉思波网络科技有限责任公司创始人、CEO
您的观点 (可选)
🎁 注册账号,同步您的个性化学习路径