量子化
カテゴリ: LLM運用技術
ニューラルネットワークのパラメータを低精度の数値表現に変換する技術。通常、LLMのパラメータは32ビット浮動小数点数(FP32)で表現されるが、8ビット整数(INT8)や4ビット整数(INT4)に変換することで、モデルサイズを1/4から1/8に削減できる。推論速度が向上し、メモリ使用量も大幅に減少するため、低スペックなハードウェアでもLLMを実行可能になる。精度を保ちつつ軽量化できるため、ローカルLLMホスティングの鍵となる技術。
関連キーワード
量子化
ニューラルネットワークのパラメータを低精度の数値表現に変換する技術。通常、LLMのパラメータは32ビット浮動小数点数(FP32)で表現されるが、8ビット整数(INT8)や4ビット整数(INT4)に変換することで、モデルサイズを1/4から1/8に削減できる。推論速度が向上し、メモリ使用量も大幅に減少するため、低スペックなハードウェアでもLLMを実行可能になる。精度を保ちつつ軽量化できるため、ローカルLLMホスティングの鍵となる技術。