知识蒸馏:一种机器学习/深度学习方法,把大型、复杂模型(“教师模型”)学到的知识转移到更小、更快的模型(“学生模型”)中,使学生模型在保持较好性能的同时更易部署(例如在手机、边缘设备上)。该术语也可泛指“把知识提炼成更精炼形式”的过程,但在当代语境中最常见于深度学习。
/ˈnɑːlɪdʒ ˌdɪstɪˈleɪʃən/
Knowledge distillation can make a model smaller and faster.
知识蒸馏可以让模型变得更小、更快。
By training the student to match the teacher’s soft probabilities, knowledge distillation often improves accuracy compared with training the small model alone.
通过让学生模型去匹配教师模型的“软概率”输出,知识蒸馏往往能让小模型的准确率优于只用小模型独立训练的结果。
distillation 原指“蒸馏”(通过加热与冷凝提纯液体),引申为“提炼、萃取精华”。knowledge distillation 把这种“从复杂混合物中提取精华”的意象借用到机器学习中,强调从大模型中“提炼”出可迁移的行为与信息,用于训练更轻量的模型。