アテンション機構

カテゴリ: モデル・アーキテクチャ

ニューラルネットワークが入力の異なる部分に異なる重み(注意)を割り当てる仕組み。Transformerモデルの中核をなす技術で、各トークンが他のどのトークンに注目すべきかを学習する。セルフアテンション(Self-Attention)により、文脈を考慮した高精度な言語理解が可能になる。計算量はシーケンス長の二乗に比例するため、長文処理では計算コストが課題となり、Flash Attentionなどの最適化技術が開発されている。

関連キーワード

アテンション機構