数学基础
/
Feb 09, 2026
Step 8 08. 信息论:从比特到压缩
<!-- Title: 08. 信息论:从比特到压缩 -->
<!-- Series: 程序员的数学修养 (ID: 16) -->
<!-- Author: admin -->
# 信息论:从比特到压缩
## 1. 信息的度量:熵 (Entropy)
我们常说“这句话信息量很大”。但在香农(Claude Shannon)之前,这只是一个模糊的形容词。
香农提出:**信息是用来消除不确定性的东西**。
**熵 ($H$)** 是衡量不确定性的指标。
$$ H(X) = - \sum p(x) \log_2 p(x) $$
* **必然事件**:太阳明天升起。概率 $p=1, \log p=0$。熵为 0(没有信息量)。
* **扔硬币**:50% 正,50% 反。不确定性最大。熵为 1 bit。
## 2. 霍夫曼编码 (Huffman Coding):无损压缩的鼻祖
如何用最少的比特数来存储一段文本?
答案是:**让出现频率高的字符用短编码,出现频率低的字符用长编码。**
**案例**:
文本 "AAAAABBC"
* 传统 ASCII:每个字符 8 bit。总共 $8 \times 8 = 64$ bits。
* 霍夫曼编码:
* A (5次): `0` (1 bit)
* B (2次): `10` (2 bits)
* C (1次): `11` (2 bits)
* 总共:$5\times1 + 2\times2 + 1\times2 = 11$ bits。
* **压缩率高达 17%!**
这就是 ZIP, JPEG, MP3 等所有压缩算法的基石。
## 3. 交叉熵 (Cross Entropy):连接信息论与深度学习
我们在[深度学习数学基础](articles/247.md)中提到过“交叉熵损失”。
在信息论中,交叉熵 $H(P, Q)$ 表示:**使用分布 $Q$ 的编码方案,来编码来自分布 $P$ 的样本,平均需要的比特数。**
* $P$: 真实分布(这张图是猫)。
* $Q$: 预测分布(模型觉得是猫的概率)。
如果我们预测得越准 ($Q \approx P$),我们需要的比特数就越少(交叉熵越低)。
所以,**最小化 Loss,本质上就是最小化编码长度,也就是在“压缩”关于世界的信息。**
## 结语
信息论告诉我们:**数据是可以被极致压缩的,只要我们找到了它背后的规律(概率分布)。**
这也许解释了为什么大模型(LLM)能用有限的参数,装下人类所有的知识——因为它学会了“压缩”。
P
潘卫
南京市沉思波网络科技有限责任公司创始人、CEO
系列完结 🎉
您的观点 (可选)
🎁 注册账号,同步您的个性化学习路径