レイテンシ

カテゴリ: コスト・運用

リクエストを送信してから応答を受け取るまでの遅延時間。LLMの推論では、ネットワークレイテンシと推論処理時間の合計となる。クラウドサービスでは200～500ミリ秒が一般的だが、ローカルLLMホスティングでは10～50ミリ秒に短縮できる。リアルタイム性が求められるアプリケーションでは、レイテンシが低いほどユーザー体験が向上する。エッジ推論最適化やモデル量子化により、レイテンシを削減できる。