スループット
カテゴリ: コスト・運用
単位時間あたりに処理できるリクエスト数や生成できるトークン数。レイテンシが個々のリクエストの応答速度を表すのに対し、スループットはシステム全体の処理能力を表す。バッチ処理最適化やマルチGPU構成により、スループットを向上させられる。ローカルLLMホスティングでは、同時に複数のユーザーからリクエストが来る場合、高いスループットが求められる。スループットとレイテンシのバランスを最適化することが運用の鍵となる。
関連キーワード
スループット
単位時間あたりに処理できるリクエスト数や生成できるトークン数。レイテンシが個々のリクエストの応答速度を表すのに対し、スループットはシステム全体の処理能力を表す。バッチ処理最適化やマルチGPU構成により、スループットを向上させられる。ローカルLLMホスティングでは、同時に複数のユーザーからリクエストが来る場合、高いスループットが求められる。スループットとレイテンシのバランスを最適化することが運用の鍵となる。