Moon

 · 8 days ago

什么是大模型蒸馏版(Distilled Model)?

蒸馏版(Distilled Model)是指用一个大模型(老师模型)来“教”一个小模型(学生模型),让小模型学会大模型的核心能力,但参数量大幅减少、速度更快、内存占用更低。
核心目的
把大模型的“知识”压缩到小模型里,实现接近大模型的效果,但跑得更快、更省资源(适合本地单机、手机、边缘设备)。
一句话总结
蒸馏版 = “大模型瘦身版”,性能接近原版,但更小、更快、更省电。
常见例子:
  • DeepSeek-R1-Distill-Qwen-32B(从更大模型蒸馏出的32B版)
  • Llama-3.1-8B-Instruct(从Llama-3.1-405B蒸馏)
本地跑70B+太吃力时,蒸馏版32B/70B往往是最佳折中。#LLM #蒸馏版 #大模型 #ai