ポストトレーニング量子化

カテゴリ: LLM運用技術

Post-Training Quantizationの略。既に訓練済みのモデルを量子化する手法で、追加の訓練が不要なため実装が容易。量子化認識訓練（QAT）と比較して、計算コストが低く、既存のモデルを素早く軽量化できる利点がある。ローカルLLMホスティングでは主流の手法で、8ビット量子化や4ビット量子化で広く採用されている。精度損失を最小限に抑えながら、モデルサイズと推論速度を大幅に改善できる。