数学基础
/
Feb 08, 2026
Step 3 03. 概率论:从硬币抛掷到损失函数
<!-- Title: 03. 概率论:从硬币抛掷到损失函数 -->
<!-- ID: 247 -->
<!-- Series: 深度学习数学基础 (ID: 10) -->
<!-- Author: admin -->
# 概率论:从硬币抛掷到损失函数
## 1. 为什么要学概率?
机器学习的本质,就是**从数据中学习概率分布**。
* **分类问题**:给这张图片,是猫的概率 $P(Cat|Image)$ 是多少?
* **生成模型**:学习莎士比亚的写作风格分布 $P(Text)$,然后生成新的句子。
我们训练模型的过程,其实就是让模型输出的概率分布,尽可能接近真实世界的概率分布。
## 2. 极大似然估计 (MLE):相信你的眼睛
**MLE (Maximum Likelihood Estimation)** 是统计学中最重要的思想之一。
**场景**:
有一个不均匀的硬币,抛了 10 次,结果是:7次正面,3次反面。
请问:这就硬币抛出正面的概率 $\theta$ 是多少?
直觉告诉你:$\theta = 0.7$。
**为什么?**
因为只有当 $\theta = 0.7$ 时,发生“7正3反”这件事的概率(似然)才是**最大**的。
$$ L(\theta) = \theta^7 (1-\theta)^3 $$
我们要找一个 $\theta$,使得 $L(\theta)$ 最大。
这就是**极大似然估计**:**选择那个让已发生的事情,发生概率最大的参数。**
## 3. 负对数似然 (NLL) 与 Loss
在计算时,乘法很难解(容易下溢出变成0)。
所以我们取对数 ($\log$),把乘法变成加法。
又因为我们习惯“最小化”损失函数,而不是“最大化”,所以加个负号。
这就是 **Negative Log Likelihood (NLL)**。
在分类问题中,最小化 NLL 等价于最小化 **交叉熵 (Cross Entropy)**。
这就是为什么分类任务的 Loss Function 几乎全是 Cross Entropy:
**它本质上就是在做极大似然估计。**
## 4. 贝叶斯定理:先验与后验
$$ P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)} $$
* **$P(A)$ 先验概率 (Prior)**:在看数据之前,我们对事实的猜测。(比如:大概率是好人)。
* **$P(B|A)$ 似然 (Likelihood)**:假设他是好人,他做这件事的概率。
* **$P(A|B)$ 后验概率 (Posterior)**:看了数据(证据 B)之后,我们更新后的认知。
**应用**:
在正则化(L1/L2 Regularization)中,我们其实是给模型引入了一个**先验分布**(假设权重应该都很小,或者很稀疏)。这就是贝叶斯视角的机器学习。
## 5. 结语
概率论为机器学习提供了**不确定性**的语言。
在这个充满噪声的世界里,我们无法追求 100% 的确定,但我们可以追求**概率最大的最优解**。
P
潘卫
南京市沉思波网络科技有限责任公司创始人、CEO
您的观点 (可选)
🎁 注册账号,同步您的个性化学习路径