マイクロスケーリング形式を用いた大規模言語モデルの事後学習量子化(Post Training Quantization of Large Language Models with Microscaling Formats)
田中専務拓海さん、最近うちの若い者から『LLMを落としてコスト削減を』とよく聞くのですが、結局何をどうすればモデルを軽くできるのか、実務的な観点で教えてくださいませんか。AIメンター拓海素晴らしい着眼点ですね!大丈夫、一緒に整理しましょう。まず結論を3点にまとめますと、1) 事後学習量子