レイテンシ

カテゴリ: コスト・運用

リクエストを送信してから応答を受け取るまでの遅延時間。LLMの推論では、ネットワークレイテンシと推論処理時間の合計となる。クラウドサービスでは200~500ミリ秒が一般的だが、ローカルLLMホスティングでは10~50ミリ秒に短縮できる。リアルタイム性が求められるアプリケーションでは、レイテンシが低いほどユーザー体験が向上する。エッジ推論最適化やモデル量子化により、レイテンシを削減できる。

関連キーワード

レイテンシ