Flash Attention
カテゴリ: LLM運用技術
アテンション計算をメモリ効率的に実行する最適化技術。従来のアテンション計算では、中間結果を大量にメモリに保存する必要があったが、Flash Attentionはメモリアクセスパターンを最適化することで、推論速度を2~3倍に向上させる。GPUのメモリ帯域幅を最大限活用し、特に長いコンテキストを扱う場合に効果が高い。エッジ推論最適化の最新技術として実用化されている。
関連キーワード
Flash Attention
アテンション計算をメモリ効率的に実行する最適化技術。従来のアテンション計算では、中間結果を大量にメモリに保存する必要があったが、Flash Attentionはメモリアクセスパターンを最適化することで、推論速度を2~3倍に向上させる。GPUのメモリ帯域幅を最大限活用し、特に長いコンテキストを扱う場合に効果が高い。エッジ推論最適化の最新技術として実用化されている。