量子化

カテゴリ: LLM運用技術

ニューラルネットワークのパラメータを低精度の数値表現に変換する技術。通常、LLMのパラメータは32ビット浮動小数点数（FP32）で表現されるが、8ビット整数（INT8）や4ビット整数（INT4）に変換することで、モデルサイズを1/4から1/8に削減できる。推論速度が向上し、メモリ使用量も大幅に減少するため、低スペックなハードウェアでもLLMを実行可能になる。精度を保ちつつ軽量化できるため、ローカルLLMホスティングの鍵となる技術。