SplitQuant: Layer Splitting for Low-Bit Neural Network Quantization(SplitQuant:低ビットニューラルネットワーク量子化のためのレイヤー分割)
田中専務拓海さん、最近うちの若手が「量子化ってやつでモデルが小さくなる」と言うのですが、正直ピンとこなくてして。AIメンター拓海素晴らしい着眼点ですね!Quantization(量子化)はモデルの数字を扱いやすくして、メモリや計算を減らす技術ですよ。大丈夫、一緒に分かりやすく整理できます