注意機構（Attention）とは？AIが文脈を理解する仕組みをわかりやすく解説

「Attention（注意機構）」はTransformerの心臓部であり、現代AIが文脈を理解できる理由です。「猫が魚を食べた。それはおいしかった」という文で「それ」が「魚」を指すとAIが理解できるのはAttentionのおかげです。この記事ではAttentionの仕組みをゼロからわかりやすく解説します。

Attentionとは？
Query・Key・Valueの3つの概念
Self-AttentionとCross-Attentionの違い
Multi-Head Attentionとは
Attentionの限界：計算コスト
よくある質問
1. AttentionとTransformerはどちらが先？
2. Attentionスコアは実際に可視化できる？

Attentionとは？

Attention（アテンション・注意機構）とは、AIが文章を処理する際に「どの単語とどの単語が関係深いか」を動的に計算する仕組みです。人間が文章を読むときに重要な部分に「注意」を向けるように、AIも各単語がほかの単語に対してどれだけ「注意」を向けるかを数値で表します。

たとえば「The animal didn’t cross the street because it was too tired」という文で、「it」が「animal」を指すか「street」を指すかを判断するのは人間でも一瞬考えます。Attentionはこの「どの単語を参照すべきか」の問題を、すべての単語間の関係スコアを計算することで解決します。

Query・Key・Valueの3つの概念

Attentionの計算フロー

Query（クエリ）：探している情報

「私は今何を探しているか」を表すベクトル。検索エンジンの検索キーワードに相当。

Key（キー）：各単語の識別情報

「私はどんな情報か」を表すベクトル。検索エンジンのインデックスに相当。

Value（バリュー）：実際の情報

「私が持っている実際の内容」を表すベクトル。QueryとKeyの一致度に応じて取り出される。

スコア計算・Softmax

QueryとKeyの内積を計算してSoftmaxで確率分布に変換。どの単語に何%注意を向けるかが決まる。

加重和でContextベクトル生成

注意スコアに応じてValueを加重平均。その単語の文脈を理解したベクトルが完成。

Self-AttentionとCross-Attentionの違い

種類	概要	使用場面
Self-Attention（自己注意）	同じ文章内の単語同士の関係を計算。各単語が文章内の他の単語とどう関係するかを理解する。	TransformerのEncoder・Decoder両方で使用。文章の文脈理解に必須。
Cross-Attention（交差注意）	異なる系列間の関係を計算。たとえば日本語の入力文と英語の出力文の関係を計算する。	翻訳・要約などSeq2Seqタスクで使用。DecoderがEncoderの情報を参照する際に使用。
Causal Attention（因果的注意）	過去の単語だけに注意を向ける。未来の単語は参照できないようマスクする。	GPT系の自己回帰型言語モデル。次の単語を予測する学習に使用。

Multi-Head Attentionとは

1つのAttentionは1つの観点からしか関係性を見られません。Multi-Head Attention（マルチヘッドアテンション）は、複数のAttentionを並列に実行して異なる観点から同時に関係性を捉えます。あるヘッドは文法的な関係（主語と動詞）、別のヘッドは意味的な関係（反義語・同義語）、さらに別のヘッドは文書の構造的な関係を学習します。GPT-4は96個のヘッドを持つとされており、96の異なる観点から同時に文脈を理解します。

Attentionの限界：計算コスト

Attentionの計算コストは文章の長さの2乗に比例します（O(n²)の計算量）。文章が2倍になると計算量は4倍になります。これがコンテキストウィンドウに上限がある主な理由です。この問題を解決するためにFlashAttention・Sparse Attention・Linear Attentionなど効率化技術が研究されています。Googleが開発したGeminiの100万トークンのコンテキストもこのような技術革新の成果です。