投機的デコーディング

カテゴリ: LLM運用技術

小さなモデルで予測を行い、大きなモデルで検証することで、全体の推論時間を短縮する技術。高速な小型モデルが複数のトークンを一度に生成し、精度の高い大型モデルがその予測を検証・修正する。正解率が高い場合は大幅な高速化が実現でき、間違っていても大型モデルが修正するため精度は維持される。推論速度と精度のバランスを取るための革新的なアプローチ。