Vision TransformerにおけるSoftmaxをReLUに置き換える手法（Replacing softmax with ReLU in Vision Transformers）

田中専務

拓海先生、最近うちの若い連中が「AttentionのsoftmaxをReLUに変えるといいらしい」と騒いでまして。正直、何がどう良くなるのか見当もつきません。これって本当に実務で役立つ話ですか。

AIメンター拓海

素晴らしい着眼点ですね！大丈夫、一緒に整理しましょう。要点は三つで、性能の維持、計算の簡素化、実装上の並列化です。まずは前提から順に説明しますよ。

田中専務

まず、そもそもsoftmaxって何ですか。Excelでいう合計を出して割合にするようなものだと聞きましたが、それとReLUはどう違うんでしょう。

AIメンター拓海

素晴らしい着眼点ですね！簡単に言うと、softmaxは複数の値を足して1にする”割合変換”で、注目の重み付けを確率の形にします。一方のReLUは負をゼロにする単純な関数で、確率にはなりません。普通は確率にすることで安定するためsoftmaxが多用されます。

田中専務

なるほど。で、ReLUにしたら計算が楽になると。うちの現場で言えば、人手一人分の仕事が自動化できる、みたいな期待を持っていいですか。

AIメンター拓海

いい質問です！要するに計算コストと並列化の観点で利点があります。softmaxは指数計算とシーケンス長に沿った合算が必要で、並列処理の頭打ちが生じやすいのです。ReLUは単純なので並列化しやすく、特に長い入力列を扱う場面で効率が出ますよ。

田中専務

でも先生、論文の話ではそのままだと精度が落ちると聞きました。どうやって精度を保つのですか。

AIメンター拓海

素晴らしい着眼点ですね！論文は重要な工夫を一つ入れています。それはReLUの出力を”シーケンス長で割る”ことです。これによりスケールが調整され、softmaxと似た振る舞いを示すことができ、学習での安定性が回復します。

田中専務

これって要するに、ReLUで単純化しても”全体の割り算（シーケンス長で割る）”でバランスを取れば、昔のやり方と同じくらい効く、ということですか。

AIメンター拓海

その通りです！非常に良い理解ですね。まとめると一、ReLUに置き換えると計算が単純になる。二、シーケンス長で割る工夫で精度が保てる。三、並列化がしやすく実装上の効率が向上する。これだけで議論を始められますよ。

田中専務

なるほど、結構現実的な改善案に聞こえます。実際の効果はどれくらいの規模のモデルで確認しているんですか。

AIメンター拓海

素晴らしい着眼点ですね！論文では小型から大型のVision Transformerで実験しており、ImageNet-21kという大規模データでの学習で、ReLU/シーケンス長の組合せがsoftmaxに匹敵するか追随することを示しています。特に計算量を増やした際の

トゥワイシング注意機構が捉える残差情報の活用（Transformer Meets Twicing: Harnessing Unattended Residual Information）