3倍加速LLM推理——推测解码(Speculative Decoding)
推测解码(Speculative
Decoding,也有人译为“投机采样”,个人认为意译为“拒绝采样”更好一些)是Google[1]和DeepMind[2]在2022年同时发现的大模型推理加速方法。它可以在生成效果无损的前提下,获得3倍以上的加速比。GPT-4泄密报告也提到OpenAI线上模型推理使用了它。
基本思想:小模型打草稿,大模型纠正
打草稿:Speculative
Dec