アテンションレイヤー

13. アテンションレイヤー¶

アテンションは機械学習やAIにおいて、特にコンピュータビジョンで何年も前から存在する概念です[BP97]。「ニューラルネットワーク」という言葉と同様に、アテンションは人間の脳が大量の視覚・聴覚入力を処理する際の注意機構に着想を得ています[BP97]。アテンションレイヤーは、その注意機構を再現する深層学習レイヤーです。深層学習におけるアテンションについてはLuongら[LPM15]が詳細を解説しています。また、こちらで実践的な概要が紹介されています。アテンションレイヤーは言語のような系列のモデリングに非常に有用であることが経験的に示されており、現在では必要不可欠な存在となっています[VSP+17]。アテンションレイヤーが最も良く使わているのは系列モデリングに用いるトランスフォーマーニューラルネットワークです。また。グラフニューラルネットワークでもアテンションが使われることがあります。

Audience & Objectives

この章は、Standard Layers と Tensors and Shapesを理解していることを前提に書かれているので、ブロードキャスト、行列やテンソルの形状には慣れていた方が良いでしょう。この章を終えるころには、以下の事ができるようになっているはずです。

アテンションレイヤーの形状や入出力の正しい指定
アテンションレイヤーの実装
他のレイヤーにアテンションを適用する方法

アテンションレイヤーは、基本的には加重平均による集約です。これは単に各要素に何らかの方法で重み付けをし、その平均を計算しているだけです。これにより、アテンションは入力テンソルのランクを小さくします。ほとんどのレイヤーが1つもしくは2つの入力を取るのに対し、アテンションは3つの入力を取るという点で珍しいレイヤーです。これら3つの入力はそれぞれ、クエリー、バリュー、キーと呼ばれます。集約はバリューに対して行われ、バリューのランクが3であれば出力のランクは2になります。クエリーはキーより1小さいランク、キーとバリューは同じランクです。キーとクエリーはアテンション機構 –方程式を意味する–に従ってバリューの重みを決定します。

下の表はこれら3つの入力をまとめたものです。多くの場合、クエリーはバッチ処理されるため、ランクが2になることに注意してください。入力クエリがバッチ処理されている場合、出力ランクも1ではなく同様に2になります。

	ランク	形状	目的	例
クエリー	1	(アテンション特徴量の数)	キーに対してチェックを行う入力	特徴量ベクトルとして表現された1単語
キー	2	(系列の長さ, アテンション特徴量の数)	クエリーに対してアテンションを計算するために使用する	特徴量ベクトルとして表現された文中の全単語
バリュー	2	(系列の長さ, アテンション特徴量の数)	出力値を計算するために使用される	文中の各単語に対応する数値ベクトル
出力	1	(バリュー特徴量の数)	バリューのアテンションウェイトによる加重平均	１つのベクトル

13.1. 例¶

アテンションは系列データで考えると分かりやすい概念です。「The sleepy child reads a book」という文章で考えてみましょう。文中の各単語はキーに相当し、単語を埋め込みで表現するとキーはランク2となります。例えば、「sleepy」という単語は、長さ3の埋め込みベクトル： \([2, 0, 1]\) で表現されるかもしれません。これらの埋め込みは標準的な言語の埋め込みから学習または取得されたものです。慣習的に、キーの軸0は系列における位置を表し、軸1がベクトルを表します。クエリーは多くの場合、「book」という単語のようにキーに含まれている一要素になります。クエリーが文中のどの部分から影響を受けているかを見ているのが、アテンションの重要なポイントです。「Book」は「child」と「reads」に強いアテンションを持つはずですが、「sleepy」ではそうはならないはずです。これを実際にベクトルとして計算したものをアテンションベクトル \(\vec{b}\) と呼ぶことはすぐにわかるでしょう。アテンションレイヤーの出力は、クエリーとキーのアテンションから算出される重みでバリューを集約したものです。したがって、文中の各要素に対してひとつのキー、バリューが対応しているはずです。一般的に、バリューはキーと同一になることもあります。

数学的にどういうことか見てみましょう。アテンションレイヤーは（１）アテンション機構によるアテンションベクトル \(\vec{b}\) の計算と、（２）アテンションベクトル \(\vec{b}\) を用いたバリューの集約の2つのステップからなります。アテンション機構はアテンション方程式の別名です。上の例について考えてみてください。ここでは3次元の埋め込みを使って単語を表現してみます。

インデックス	埋め込み	単語
0	0,0,0	The
1	2,0,1	Sleepy
2	1,-1,-2	Child
3	2,3,1	Reads
4	-2,0,0	A
5	0,2,1	Book

キーはこれら全てをまとめたランク2のテンソル（行列）になります。ここでは、分かりやすさのために整数のみで説明していることに注意してください。通常は単語の埋め込み表現には浮動小数点が用いられます。

(13.1)¶\[\begin{equation} \mathbf{K} = \left[ \begin{array}{lccccr} 0 & 2 & 1 & 2 & -2 & 0\\ 0 & 0 & -1 & 3 & 0 & 2\\ 0 & 1 & -2 & 1 & 0 & 1\\ \end{array}\right] \end{equation}\]

この文には6つの単語があり、それぞれ3次元ベクトルで表現されるので、キーは \((6, 3)\) の形状をしています。バリューは単純に、各単語に1つの値を持つとしす。これらのバリューによって出力を決定します。もしかしたら、単語の感情を表現しているかもしれません：「happy」のようなポジティブな単語なのか、「angry」のようなネガティブな単語なのかなど。

(13.2)¶\[\begin{equation} \mathbf{V} = \left[ 0, -0.2, 0.3, 0.4, 0, 0.1\right] \end{equation}\]

バリュー \(\mathbf{V}\) はキーと同じランクであるべきで、その形状は \((6, 1)\)になります。また、クエリーはキーよりランクが1小さくなります。この例でのクエリーは「book」という単語です。

(13.3)¶\[\begin{equation} \vec{q} = \left[0, 2, 1\right] \end{equation}\]

13.2. アテンション機構方程式¶

アテンション機構方程式はクエリーとキーの引数のみを使用します。この式はキーより1ランク低いテンソルを出力し、各キーに大してクエリーが持つべきアテンションに対応するスカラーを与えます。このアテンションベクトルは正規化されている必要があります。最も一般的なアテンション機構は内積とソフトマックスです。

(13.4)¶\[\begin{equation} \vec{b} = \mathrm{softmax}\left(\vec{q}\cdot \mathbf{K}\right) = \mathrm{softmax}\left(\sum_j q_j k_{ij}\right) \end{equation}\]

ここで、インデックス \(i\) は系列における位置、\(j\) は特徴量のインデックスです。ソフトマックスは以下で定義され、

(13.5)¶\[\mathrm{softmax}\left(\vec{x}\right) = \frac{e^\vec{x}}{\sum_i e^ x_i}\]

\(\vec{b}\) が正規化されることを保証しています。上の例から得た値を代入すると、次のようになります。

(13.6)¶\[\begin{equation} \vec{b} = \mathrm{softmax}\left(\left[0, 2, 1\right] \times \left[ \begin{array}{lccccr} 0 & 2 & 1 & 2 & -2 & 0\\ 0 & 0 & -1 & 3 & 0 & 2\\ 0 & 1 & -2 & 1 & 0 & 1\\ \end{array}\right]\right) = \mathrm{softmax}\left( \left[0, 1, -4, 7, 0, 5\right]\right) \end{equation}\]

(13.7)¶\[\begin{equation} \vec{b} = \left[0, 0, 0, 0.88, 0, 0.12\right] \end{equation}\]

ここでは数字を丸めましたが、アテンションベクトルは単語自身（book）と動詞（read）にのみ重みを持っています。これは私が作った例ですが、アテンションが単語同士をどのように関連付けるか示唆を与えてくれています。グラフニューラルネットワークにおける近傍の概念を思い起こすかもしれません。

13.3. アテンション集約¶

アテンションベクトル \(\vec{b}\) は、バリューの加重平均の計算に使用されます。

(13.8)¶\[\begin{equation} \mathbf{V}\vec{b} = \left[0, 0, 0, 0.88, 0, 0.12\right]^ T \left[ 0, -0.2, 0.3, 0.4, 0, 0.1\right] = 0.36 \end{equation}\]

概念的には、今回の例では文中クエリー「book」のアテンションで重みづけされた感情を計算したことになります。アテンションレイヤーは2つのことを行っていることが分かります：アテンション機構でアテンションベクトルを計算し、それを使ってバリューの加重平均を求めています。

13.4. テンソルドット¶

この内積、ソフトマックス、集約はテンソルドットと呼ばれ、最も一般的なアテンションレイヤーです[LPM15]。一般的な派生としては、キーの次元（最後の軸の次元）で割ったものがあります。ここで、キーが正規化されていないことを思い出してください。乱数であれば、中心極限定理より内積からの出力の大きさははキーの次元の平方根でスケールします。つまり、\(e^{\vec{q} \cdot \mathbf{K}}\) を取ることで、ソフトマックス値に悪影響を与える可能性があります。以上をまとめると、以下の式のようになります。

(13.9)¶\[\begin{equation} \vec{b} = \mathrm{softmax}\left(\frac{1}{\sqrt{d}}\vec{q}\cdot \mathbf{K}\right) \end{equation}\]

ここで、\(d\) はクエリーベクトルの次元です。

13.5. ソフト、ハード、温度アテンション¶

アテンションの派生形として考えられるのは、\(\mathrm{softmax}\) の出力において最もアテンションの高いものを1に、それ以外を0に置き換えることです。これをハードアテンションと呼びます。ハードアテンションの式は、以下のようにソフトマックスをハードマックスで置き換えることで定義されます。

(13.10)¶\[\begin{equation} \mathrm{hardmax}\left(\vec{x}\right) = \lim_{T\rightarrow0}\frac{e^\vec{x} / T}{\sum_i e^ {x_i / T}} \end{equation}\]

これは、 \(\vec{x}\) の最大要素の位置を1とし、それ以外の位置に0を置くことを数学的に定式化したものです。この式が統計力学のボルツマン分布に似ていることから、温度 \(T\)という用語を用いています。\(T = 0\) のときはハードアテンション、\(T = 1\) のときはソフトアテンション、\(T = \infty\) のときは均一なアテンションを意味することがわかると思います。\(T\) を中間的な値にすることも可能です。

13.6. セルフアテンション¶

ディープラーニングでは、すべてがバッチ処理されることを覚えていますか？通常、アテンションレイヤーへのバッチ入力はクエリーです。これまでの議論では、クエリーはキーよりも1ランク低いテンソル（クエリーベクトル）でしたが、バッチ化されるとキーと同じランクになります。ほとんどの場合、クエリーとキーは同一です。我々の例では、クエリーは「book」の埋め込みベクトルで、これはキーのひとつでした。もし全ての単語を考慮するようにクエリーをバッチ処理すると、クエリーはキーと同じものになります。さらに特殊なケースとして、クエリー、バリュー、キー全てが同じ場合があり、これをセルフアテンションと呼びます。これはアテンションメカニズムがバリューを直接使用することを意味しており、レイヤーに入力される別の「キー」は存在しません。

13.7. 学習可能アテンション¶

ここまで説明してきたアテンションには、学習可能なパラメータは在りませんでした。アテンションによる学習はどのようにして行うのでしょうか？一般的に、学習可能なパラメータを直接式に持たせることはしません。代わりに、全結合層を通してキー、バリュー、クエリー（Standard Layersを参照）をアテンションへ入力します。その為、ひとつのレイヤーとしてアテンションを見ると学習可能なパラメータはありません。全結合層とアテンションレイヤーのブロックとして見れば学習可能です。以下で明示的に確認しましょう。

13.8. マルチヘッドアテンションブロック¶

複数のフィルターによる畳み込みに着想を得た、複数の並列アテンションからなるブロック（レイヤーのグループ）があります。これらは「マルチヘッドアテンション」と呼ばれます。もしバリューの形状が \((L, V)\) であれば、\((H, V)\) の形状のテンソルが返ってきます。ここで、\(H\) は並列アテンションレイヤー（ヘッド）の数です。アテンションレイヤーに学習可能パラメータがないのなら、どんな意味があるのでしょうか。ここで、重みを導入しましょう。全てのアテンションヘッドの形状が一定である必要があるので、重みは正方行列になっています。

アテンションレイヤーが \(A(\vec{q}, \mathbf{K}, \mathbf{V})\) で定義されているとします。この時マルチヘッドアテンションは以下のように書けます。

(13.11)¶\[\begin{equation} \left[A(\mathbf{W}_q^0\vec{q}, \mathbf{W}_k^0\mathbf{K}, \mathbf{W}_v^0\mathbf{V}), A(\mathbf{W}_q^1\vec{q}, \mathbf{W}_k^1\mathbf{K}, \mathbf{W}_v^1\mathbf{V}), \ldots, A(\mathbf{W}_q^H\vec{q}, \mathbf{W}_k^H\mathbf{K}, \mathbf{W}_v^H\mathbf{V})\right] \end{equation}\]

ここで、出力ベクトル \(\ldots\) の各要素はアテンションレイヤーからの出力で、 \(H\) 個の \((L, V)\) の形状をしたテンソルです。つまり、全体の出力としては \((H, L, V)\) の形状をしたテンソルになります。マルチヘッドアテンションブロックの最も有名な例は、トランスフォーマー[]で使用されているセルフアテンションマルチヘッドアテンションブロックです。通常、複数の連続したアテンションブロックを適用するので、次のブロックへ入力されるバリューは、ランク3 \((H, L, V)\) ではなくランク2のテンソルである必要があります。したがって、マルチヘッドアテンションの出力はしばしば \((H, V, V)\) または \((H)\) の重みテンソルとの行列積によってランク2になります。これが分かりにくいようであれば、以下の例を参照してください。

13.9. ノートブックを実行する¶

上のをクリックして、Google Colab を立ち上げてください。

13.10. コードの例¶

アテンションがどのように実装されているか見てみましょう。ここでは様々な量にランダムな変数を使用するので、学習される変数を w_ で、入力変数を i_ で表すことにします。

13.10.1. テンソルドット機構¶

まず、テンソルドット機構の実装から始めます。例として、系列の長さを11、キー特徴量の長さを4、バリュー特徴量の次元を2とします。キーとクエリーは、特徴量の次元が同じであることに注意してください。

import numpy as np

def softmax(x, axis=None):
    return np.exp(x) / np.sum(np.exp(x), axis=axis)

def tensor_dot(q, k):
    b = softmax((k @ q) / np.sqrt(q.shape[0]))
    return b

i_query = np.random.normal(size=(4,))
i_keys = np.random.normal(size=(11, 4))

b = tensor_dot(i_query, i_keys)
print("b = ", b)

b =  [0.20700389 0.04009835 0.05307579 0.0622597  0.08612718 0.04874157
 0.14210682 0.11323356 0.0255366  0.13386457 0.08795197]

期待通り、合計が1のベクトル \(\vec{b}\) が得られました。

13.10.2. 一般的なAttention¶

では、このアテンション機構をアテンションレイヤーに組み込みましょう。

def attention_layer(q, k, v):
    b = tensor_dot(q, k)
    return b @ v


i_values = np.random.normal(size=(11, 2))
attention_layer(i_query, i_keys, i_values)

array([0.3080947 , 0.38364215])

各特徴次元に1つずつ、2つの値が得られます。

13.10.3. セルフアテンション¶

セルフアテンションの変更点は、クエリー、キー、バリューを等しくすることです。この設定ではクエリーのバッチ処理が必要になり、ランク2の出力を得ます。

def batched_tensor_dot(q, k):
    # a は batch x seq x feature 次元（ここでは N x N x 4）になる
    # アインシュタイン記法によるバッチ化されたドット積
    a = np.einsum("ij,kj->ik", q, k) / np.sqrt(q.shape[0])
    # 系列に対してソフトマックスを適用
    b = softmax(a, axis=1)
    return b


def self_attention(x):
    b = batched_tensor_dot(x, x)
    return b @ x


i_batched_query = np.random.normal(size=(11, 4))
self_attention(i_batched_query)

array([[ 0.11789742, -0.2934655 , -0.03479239, -0.01692023],
       [ 0.31828959, -0.27241419, -0.04986509, -0.14278845],
       [ 0.02310531, -0.10175113, -0.30212143, -0.17298333],
       [-0.20688837, -0.99100187, -0.0773466 ,  0.1965005 ],
       [-0.1770745 , -0.76096894, -0.00722271,  0.10354181],
       [-0.93571529, -1.73757843, -0.11719636,  1.20152768],
       [-0.41593942, -0.22415518, -0.40699085, -0.2241061 ],
       [-0.79776283, -1.63773601,  0.19498726,  1.06386468],
       [-1.69392981,  0.18193607, -0.82259821, -0.04819894],
       [-1.77157321, -0.15970198, -0.69181863,  0.17983833],
       [-0.11379758, -0.92881141, -0.02131801,  0.40542272]])

\(11\times4\) の行列が得られれば上手く計算ができています。

13.10.4. 学習可能パラメータを追加する¶

これらのステップに重み行列を追加することで、学習可能パラメータを追加することができます。セルフアテンションで実践してみましょう。セルフアテンションではキー、バリュー、クエリーは同じものでしたが、それぞれに異なる重みを掛けることができます。デモとして、バリューの特徴量次元を2に変更してみます。

# 重みを入力次元 -> 所望の特徴量次元に変更する。
w_q = np.random.normal(size=(4, 4))
w_k = np.random.normal(size=(4, 4))
w_v = np.random.normal(size=(4, 2))


def trainable_self_attention(x, w_q, w_k, w_v):
    q = x @ w_q
    k = x @ w_k
    v = x @ w_v
    b = batched_tensor_dot(q, k)
    return b @ v


trainable_self_attention(i_batched_query, w_q, w_k, w_v)

array([[ 4.23472509e-01,  9.04428270e-02],
       [ 1.31111986e+00,  2.35479791e-01],
       [ 1.44492004e+00, -1.58504816e-01],
       [-6.92618092e+00, -5.76462397e-01],
       [-1.17416733e+01, -7.88693159e-01],
       [-3.25096494e+01, -3.14974036e+00],
       [-1.07461959e+00, -3.13295876e-01],
       [-1.53449098e+02, -1.18942119e+01],
       [-1.47040433e+00, -1.46023707e-01],
       [-2.95108097e+01, -2.37028194e+00],
       [-3.57954944e-01, -3.92492830e-02]])

重みでバリューの特徴量次元を2にしたので、 \(11\times 2\)の出力が得られます。

13.10.5. マルチヘッド¶

マルチヘッドアテンションの唯一の変更点は各ヘッドに対して1つの重みを持ち、ヘッド適用後の出力を結合することです。学習可能な長さ \(H\) の重みベクトルを使って出力を連結したり、平均や最大値などの集約を行います。

w_q_h1 = np.random.normal(size=(4, 4))
w_k_h1 = np.random.normal(size=(4, 4))
w_v_h1 = np.random.normal(size=(4, 2))
w_q_h2 = np.random.normal(size=(4, 4))
w_k_h2 = np.random.normal(size=(4, 4))
w_v_h2 = np.random.normal(size=(4, 2))
w_h = np.random.normal(size=2)


def multihead_attention(x, w_q_h1, w_k_h1, w_v_h1, w_q_h2, w_k_h2, w_v_h2):
    h1_out = trainable_self_attention(x, w_q_h1, w_k_h1, w_v_h1)
    h2_out = trainable_self_attention(x, w_q_h2, w_k_h2, w_v_h2)
    # join along last axis so we can use dot.
    all_h = np.stack((h1_out, h2_out), -1)
    return all_h @ w_h


multihead_attention(i_batched_query, w_q_h1, w_k_h1, w_v_h1, w_q_h2, w_k_h2, w_v_h2)

array([[-0.33469453,  1.23200244],
       [-0.49369896, -0.24600652],
       [-4.00547969, -2.08206014],
       [ 3.99078926,  1.68343247],
       [ 3.71601947,  1.89168072],
       [ 1.31416941,  3.38837506],
       [-0.21610159,  0.29774985],
       [14.46310167, 45.28534033],
       [-4.25262271,  1.21172501],
       [-2.424586  ,  3.21464851],
       [ 1.16727829,  1.7187619 ]])

期待通り、ランク2である \(11\times 2\) の出力が得られました。

14. グラフニューラルネットワークにおけるアテンション¶

グラフニューラルネットワークの重要な性質に permutation equivariant があることを思い出してください。我々はグラフニューラルネットワークを permutation equivariant にするために、合計や平均などの集約を使用してきました。

また、アテンションレイヤーは permutation invariant（バッチ化しない時）もしくは permutation equivariant（バッチ化する時）です。このため、アテンションは近傍情報を集約する方法としてよく利用されています。アテンションレイヤーは重要な近傍を見つけるのが得意なので、高次元グラフ（大量な近傍を持つ）において重要です。これは分子では稀なことですが、全ての原子を結合してその距離をエッジとして置くだけで良いということです。グラフ畳み込みレイヤー（GCNレイヤー）やほとんどのGNNレイヤーが、レイヤーごとにひとつの結合しか情報を伝播させることができないことを思い出してください。したがって、全ての原子を結合してアテンションを適用することは、多数のレイヤーを経由しなくても長距離の情報伝達が可能になります。ただし、ネットワークが正しい結合/原子に注意を向けているか気を付ける必要があります。

アテンションが Battaglia equations[BHB+18] にどう当てはまるか見てみましょう。Battaglia 方程式はGNNを定義するための一般的な標準方程式であることを思い出してください。アテンションは複数の場所に現れることがありますが、先述した通り近傍を考慮する時に現れます。具体的には、クエリーは \(i\) 番目のノードとなり、キー／バリューは近傍ノードとエッジの特徴の組み合わせになります。Battaglia 方程式がきれいに当てはまるステップはないが、以下のようにアテンションレイヤーを分割することができます。アテンションレイヤーの大部分はエッジ更新式に当てはまるでしょう。

(14.1)¶\[\begin{equation} \vec{e}^{'}_k = \phi^e\left( \vec{e}_k, \vec{v}_{rk}, \vec{v}_{sk}, \vec{u}\right) \end{equation}\]

これは一般化された式であり、 \(\phi^e()\) の選択がGNNを定義していることを思い出してください。\(\vec{e}_k\) はエッジ \(k\) の特徴量ベクトル、\(\vec{v}_{rk}\) はエッジ \(k\) の受信ノード特徴量ベクトル、\(\vec{v}_{sk}\) はエッジ \(k\) の送信ノード特徴量ベクトル、\(\vec{u}\) は全体グラフ特徴量です。このステップを、アテンション機構に利用します。ここで、クエリはー受信ノード \(\vec{c}_{rk}\) で、キー／バリューは送信とエッジベクトルです。具体的には、Zhangらのアプローチ（[ZSX+18]）をテンソルドット機構で利用します。彼らはノード特徴量のみを考慮し、キーとバリューはノード特徴量と同一に設定しました。一方で、彼らはノード特徴量をキー／クエリーに変換する学習可能なパラメータを使用しました。

(14.2)¶\[\begin{equation} \vec{q} = \mathbf{W}_q\vec{v}_{rk} \end{equation}\]

(14.3)¶\[\begin{equation} \mathbf{K} = \mathbf{W}_k\vec{v}_{sk} \end{equation}\]

(14.4)¶\[\begin{equation} \mathbf{V} = \mathbf{W}_v\vec{v}_{sk} \end{equation}\]

(14.5)¶\[\begin{equation} \vec{b}_k = \mathrm{softmax}\left(\frac{1}{\sqrt{d}} \vec{q}\cdot \mathbf{K}\right) \end{equation}\]

(14.6)¶\[\begin{equation} \vec{e}^{'}_k = \vec{b} V \end{equation}\]

ひとつの式にまとめると：

(14.7)¶\[\begin{equation} \vec{e}^{'}_k = \mathrm{softmax}\left(\frac{1}{\sqrt{d}} \mathbf{W}_q\vec{v}_{rk}\cdot \mathbf{W}_k\vec{v}_{sk}\right)\mathbf{W}_v\vec{v}_{sk} \end{equation}\]

これで、アテンションから重みづけされたエッジ特徴量ベクトルを得ることができます。最後に、エッジ集約ステップでこれらのエッジ特徴量を合計します。

(14.8)¶\[\begin{equation} \bar{e}^{'}_i = \rho^{e\rightarrow v}\left( E_i^{'}\right) = \sum E_i^{'} \end{equation}\]

Zhangら[ZSX+18]では、マルチヘッドアテンションも使用していました。マルチヘッドアテンションはどのように機能するのでしょうか？

エッジ特徴量行列 \(E_i^{'}\) は軸0がエッジ（\(k\)）、軸1が特徴量、軸2がヘッドのエッジ特徴量テンソルになります。「ヘッド」は単に \(\mathbf{W}^h_q, \mathbf{W}^h_k, \mathbf{W}^h_v\) のどの集合を使ったかを意味していることを思い出してください。テンソルを期待される行列に戻すためには、単純に最後の2軸（特徴量、ヘッド）を特徴量にマップする重み行列を用いれば良いです。

わかりやすさのため、インデックスを明示的に書き出しましょう：

(14.9)¶\[\begin{equation} \bar{e}^{'}_{il} = \rho^{e\rightarrow v}\left( E_i^{'}\right) = \sum_k e_{ikjh}^{'}w_{jhl} \end{equation}\]

ここで、 \(j\) はエッジ特徴量の入力インデックス、\(l\) は出力エッジ特徴量行列で、\(k,h,i\) は以前と同様の定義とします。トランスフォーマーはマルチヘッドアテンションで構築されたネットワークの別名なので、トランスフォーマーグラフニューラルネットワークも見かけることがあるでしょう（[MDM+20]）。

14.1. 章のまとめ¶

アテンションレイヤーは人間の注意機構にヒントを得ているが、基本的には加重平均による集約である。
アテンションレイヤーはクエリー、バリュー、キーの3つの入力をとる。これらの入力はしばしば同一で、クエリはキーの１つであり、キーとバリューは等しい。
言語のような系列モデリングに向いている。
アテンションベクトルは正規化されている必要がある。ソフトマックス関数で正規化を実現できるが、アテンション機構式はハイパーパラメータである。
アテンションレイヤーはアテンション機構でアテンションベクトルを計算する、そしてアテンション加重平均を計算することでアテンションベクトルの集約を行う。
ハードアテンション（ハードマックス関数）を用いると、アテンション機構の最大出力を返す。
ソフトマックス後のテンソルドットはアテンション機構でもっとも一般的である。
セルフアテンションはクエリー、バリュー、キーが全て等しいときに達成される。
アテンションレイヤーそのものは学習できない。
マルチヘッドアテンションブロックは複数並列アテンションに分割可能なレイヤーのグループである。

14.2. 引用文献¶

BHB+18: Peter W Battaglia, Jessica B Hamrick, Victor Bapst, Alvaro Sanchez-Gonzalez, Vinicius Zambaldi, Mateusz Malinowski, Andrea Tacchetti, David Raposo, Adam Santoro, Ryan Faulkner, and others. Relational inductive biases, deep learning, and graph networks. arXiv preprint arXiv:1806.01261, 2018.
ZSX+18(1,2): Jiani Zhang, Xingjian Shi, Junyuan Xie, Hao Ma, Irwin King, and Dit-Yan Yeung. Gaan: gated attention networks for learning on large and spatiotemporal graphs. arXiv preprint arXiv:1803.07294, 2018.
BP97(1,2): Shumeet Baluja and Dean A. Pomerleau. Expectation-based selective attention for visual monitoring and control of a robot vehicle. Robotics and Autonomous Systems, 22(3):329–344, 1997. Robot Learning: The New Wave. URL: http://www.sciencedirect.com/science/article/pii/S0921889097000468, doi:https://doi.org/10.1016/S0921-8890(97)00046-8.
LPM15(1,2): Minh-Thang Luong, Hieu Pham, and Christopher D Manning. Effective approaches to attention-based neural machine translation. arXiv preprint arXiv:1508.04025, 2015.
VSP+17: Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. In Advances in neural information processing systems, 5998–6008. 2017.
MDM+20: Łukasz Maziarka, Tomasz Danel, Sławomir Mucha, Krzysztof Rataj, Jacek Tabor, and Stanisław Jastrzębski. Molecule attention transformer. arXiv preprint arXiv:2002.08264, 2020.

12. 予測を説明する

15. Deep Learning on Sequences

deep learning for molecules & materials