技术架构
/
Feb 09, 2026
Step 7 07. 模型量化 (Quantization):把大象装进冰箱
<!-- Title: 07. 模型量化 (Quantization):把大象装进冰箱 -->
<!-- Series: LLM 原理与微调实战 (ID: 8) -->
<!-- Author: admin -->
# 模型量化 (Quantization):把大象装进冰箱
## 1. 显存危机
LLaMA-7B 模型,参数量 70 亿。
如果是 FP16 (16位浮点数) 精度,每个参数占 2 Bytes。
显存需求 $\approx 70 \text{亿} \times 2 \text{B} \approx 14 \text{GB}$。
这还没算中间激活值。普通的 RTX 3060 (12G) 根本跑不起来。
## 2. 什么是量化?
量化就是**降低精度**。
* FP32 (32 bit): 精度极高,体积大。
* FP16 (16 bit): 现在的标配。
* **INT8 (8 bit)**: 整数。体积减半。
* **INT4 (4 bit)**: 体积再减半。
通过量化,我们可以把模型参数从“精细的浮点数”映射到“粗糙的整数”。
虽然精度损失了一点点,但模型体积和显存占用大幅下降。
## 3. QLoRA:量化微调
**LoRA (Low-Rank Adaptation)** 让我们只微调一小部分参数。
**QLoRA** 则更进一步:
* 把基础模型量化到 **4-bit** (NF4)。
* 冻结基础模型。
* 只训练附加的 Adapter (LoRA) 层。
这使得我们可以在一块 24G 显存的消费级显卡(如 3090/4090)上,微调 33B 甚至 65B 的大模型。
## 4. 实战工具:llama.cpp 与 GGUF
在 CPU 上跑大模型?
**llama.cpp** 是一个神级项目。它通过极致优化的 C++ 代码和量化技术 (GGUF 格式),让 MacBook 甚至树莓派都能流畅运行 LLaMA。
## 结语
量化技术让 AI 走下了神坛(数据中心)。
现在,每个人都可以在自己的笔记本电脑上,拥有一个私有的、不联网的超级大脑。
P
潘卫
南京市沉思波网络科技有限责任公司创始人、CEO
您的观点 (可选)
🎁 注册账号,同步您的个性化学习路径