什么是大模型蒸馏版(Distilled Model)?
蒸馏版(Distilled Model)是指用一个大模型(老师模型)来“教”一个小模型(学生模型),让小模型学会大模型的核心能力,但参数量大幅减少、速度更快、内存占用更低。
核心目的:
把大模型的“知识”压缩到小模型里,实现接近大模型的效果,但跑得更快、更省资源(适合本地单机、手机、边缘设备)。
一句话总结:
蒸馏版 = “大模型瘦身版”,性能接近原版,但更小、更快、更省电。
常见例子:
- DeepSeek-R1-Distill-Qwen-32B(从更大模型蒸馏出的32B版)
- Llama-3.1-8B-Instruct(从Llama-3.1-405B蒸馏)
回复