アテンション機構

カテゴリ: モデル・アーキテクチャ

ニューラルネットワークが入力の異なる部分に異なる重み（注意）を割り当てる仕組み。Transformerモデルの中核をなす技術で、各トークンが他のどのトークンに注目すべきかを学習する。セルフアテンション（Self-Attention）により、文脈を考慮した高精度な言語理解が可能になる。計算量はシーケンス長の二乗に比例するため、長文処理では計算コストが課題となり、Flash Attentionなどの最適化技術が開発されている。