
ケントくん
ねえ博士、トランスフォーマーってすごいんだけど、メモリもたくさん使うんだよね?何か良い方法はないの?

マカセロ博士
そうじゃ、トランスフォーマーの代表的な部品、マルチヘッドアテンション(MHA)ではキーとバリューを記憶してメモリを消費するんじゃが、最近の論文ではキーだけを記憶しても良い方法が提案されているのじゃ。

ケントくん
キーだけで大丈夫なら、メモリも減らせるし、速くなりそうだね!

その通りじゃ。論文の手法では、特に長い文脈を扱う際の効率化が図れ、精度も落とさずにメモリを半分に削減することができるんじゃよ。
引用情報
Graef N., Wasielewski A., “Slim attention: cut your context memory in half without loss of accuracy — K-cache is all you need for MHA,” arXiv preprint arXiv:2503.05840v1, YYYY.
