学费了

# 概率论：从硬币抛掷到损失函数 ## 1. 为什么要学概率？机器学习的本质，就是**从数据中学习概率分布**。 * **分类问题**：给这张图片，是猫的概率 $P(Cat|Image)$ 是多少？ * **生成模型**：学习莎士比亚的写作风格分布 $P(Text)$，然后生成新的句子。我们训练模型的过程，其实就是让模型输出的概率分布，尽可能接近真实世界的概率分布。 ## 2. 极大似然估计 (MLE)：相信你的眼睛 **MLE (Maximum Likelihood Estimation)** 是统计学中最重要的思想之一。 **场景**：有一个不均匀的硬币，抛了 10 次，结果是：7次正面，3次反面。请问：这就硬币抛出正面的概率 $\theta$ 是多少？直觉告诉你：$\theta = 0.7$。 **为什么？** 因为只有当 $\theta = 0.7$ 时，发生“7正3反”这件事的概率（似然）才是**最大**的。 $$ L(\theta) = \theta^7 (1-\theta)^3 $$ 我们要找一个 $\theta$，使得 $L(\theta)$ 最大。这就是**极大似然估计**：**选择那个让已发生的事情，发生概率最大的参数。** ## 3. 负对数似然 (NLL) 与 Loss 在计算时，乘法很难解（容易下溢出变成0）。所以我们取对数 ($\log$)，把乘法变成加法。又因为我们习惯“最小化”损失函数，而不是“最大化”，所以加个负号。这就是 **Negative Log Likelihood (NLL)**。在分类问题中，最小化 NLL 等价于最小化 **交叉熵 (Cross Entropy)**。这就是为什么分类任务的 Loss Function 几乎全是 Cross Entropy： **它本质上就是在做极大似然估计。** ## 4. 贝叶斯定理：先验与后验 $$ P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)} $$ * **$P(A)$ 先验概率 (Prior)**：在看数据之前，我们对事实的猜测。（比如：大概率是好人）。 * **$P(B|A)$ 似然 (Likelihood)**：假设他是好人，他做这件事的概率。 * **$P(A|B)$ 后验概率 (Posterior)**：看了数据（证据 B）之后，我们更新后的认知。 **应用**：在正则化（L1/L2 Regularization）中，我们其实是给模型引入了一个**先验分布**（假设权重应该都很小，或者很稀疏）。这就是贝叶斯视角的机器学习。 ## 5. 结语概率论为机器学习提供了**不确定性**的语言。在这个充满噪声的世界里，我们无法追求 100% 的确定，但我们可以追求**概率最大的最优解**。

Step 3 03. 概率论：从硬币抛掷到损失函数

💬 评论 (0)

关卡列表

目录导航