モデル並列化
カテゴリ: ハードウェア・インフラ
大規模なLLMを複数のGPUに分割して配置し、推論処理を並列実行する手法。単一のGPUに収まらない大きなモデルを、レイヤーごとやテンソルごとに分割し、複数のGPU間で協調動作させる。データ並列化と組み合わせることで、さらに高いスループットを実現できる。モデルサイズが100B以上になると、モデル並列化が必須となり、効率的な分割戦略が推論速度に大きく影響する。
関連キーワード
モデル並列化
大規模なLLMを複数のGPUに分割して配置し、推論処理を並列実行する手法。単一のGPUに収まらない大きなモデルを、レイヤーごとやテンソルごとに分割し、複数のGPU間で協調動作させる。データ並列化と組み合わせることで、さらに高いスループットを実現できる。モデルサイズが100B以上になると、モデル並列化が必須となり、効率的な分割戦略が推論速度に大きく影響する。