4 分で読了
1 views

初期化とアーキテクチャが学習開始を決める

(How to Start Training: The Effect of Initialization and Architecture)

さらに深い洞察を得る

AI戦略の専門知識を身につけ、競争優位性を構築しませんか?

AIBR プレミアム
年間たったの9,800円で
“AIに詳しい人”として
一目置かれる存在に!

プレミア会員になって、山ほどあるAI論文の中から効率よく大事な情報を手に入れ、まわりと圧倒的な差をつけませんか?

詳細を見る
【実践型】
生成AI活用キャンプ
【文部科学省認可】
満足度100%の生成AI講座
3ヶ月後には、
あなたも生成AIマスター!

「学ぶ」だけではなく「使える」ように。
経営者からも圧倒的な人気を誇るBBT大学の講座では、3ヶ月間質問し放題!誰1人置いていかずに寄り添います。

詳細を見る

田中専務

拓海先生、最近部署から「初期化と構造が重要だ」という論文の話を聞きましてね。要するに、何を直せばうちのモデルがちゃんと学習を始められるんでしょうか。

AIメンター拓海

素晴らしい着眼点ですね!大丈夫です、田中専務。要点は三つだけですよ。初期重みの分散、残差(Residual)モジュールのスケーリング、そして層の幅の設計です。これらを整えれば深いネットワークでも学習を始められるんです。

田中専務

初期重みの「分散」ですか。私、統計は得意ではないのですが、それを変えるだけで現場で扱えるようになるものですか。

AIメンター拓海

はい、分かりやすく言うと種まきの量です。初期化(initialization)を適切にすると、信号が深い層までちょうどよく届くようになります。特にReLU(Rectified Linear Unit, ReLU 整流線形関数)を使う場合、分散を2/fan-inにするのがポイントですよ。

田中専務

なるほど。残差モジュールのスケーリングというのは、いわゆるResNetですか。あれをどう扱えばいいのですか。

AIメンター拓海

その通りです。Residual networks(ResNets, 残差ネットワーク)は特別で、適切に残差の寄与を小さくスケールすると、層ごとの信号のばらつき(分散)が爆発しません。要するに、橋のつなぎ方を弱めることで全体のバランスが保たれるイメージですよ。

田中専務

それで、FM1とかFM2という話が出ましたが、これって要するに学習開始前に信号が大きくなりすぎたり小さくなりすぎたりして、学習が始まらないということですか?

AIメンター拓海

まさにその通りです!FM1は平均的な信号の長さが深さとともに指数的に増えたり減ったりすることで、FM2は層ごとのばらつき(variance)が指数的に大きくなることです。簡単に言えば、信号が全層で揃っていないと最初の踏み出しが苦しくなるんですよ。

田中専務

要するに、初期化と構造を間違えると「学習の土台」ができておらず、どれだけ良いデータを与えても前に進めないということですね。

AIメンター拓海

その通りです。結論を三つにまとめると、第一に適切な重みの分散(2/fan-in)でFM1を防げます。第二にResNetでは残差のスケールを調整すればFM2の問題は自然に解消します。第三に全結合(fully connected)や畳み込み(convolutional)ネットでばらつきを抑えるには十分な幅が必要になりますよ。

田中専務

分かりました。これなら現場に落とし込みやすそうです。私の言葉で言うと、「初期の種まきと橋の強さ、そして道幅をきちんと設計すれば、深いネットでも学習の出だしは良くなる」ということでよろしいですか。

AIメンター拓海

素晴らしい要約です!まさにその理解で大丈夫ですよ。大丈夫、一緒にやれば必ずできますよ。次は実際の初期化値とResNetのスケール例を現場で示していきましょう。

田中専務

ありがとうございます。では、それを現場向けの指示書にまとめてもらえれば、私から役員会に提案してみます。

AIメンター拓海

了解しました。では次回、実務ですぐ使える数値とチェックリストをお持ちしますね。ご期待ください。

監修者

阪上雅昭(SAKAGAMI Masa-aki)
京都大学 人間・環境学研究科 名誉教授

論文研究シリーズ
前の記事
動画から指の握力を推定する二流アプローチ
(Finger Grip Force Estimation from Video using Two Stream Approach)
次の記事
スレート最適化による推薦の再考
(Beyond Greedy Ranking: Slate Optimization via List-CVAE)
関連記事
再帰的ニューラルオペレーター:安定した長期PDE予測
(Recurrent Neural Operators: Stable Long-Term PDE Prediction)
LSCD: 大規模スクリーンコンテンツデータセット
(A Large-Scale Screen Content Dataset for Video Compression)
生物医学知識抽出のための大規模言語モデル蒸留 — 有害事象
(ADE)抽出の事例研究(Distilling Large Language Models for Biomedical Knowledge Extraction: A Case Study on Adverse Drug Events)
大規模言語モデルに向けた言語意識的かつ言語非依存のトークナイゼーション
(Towards Linguistically-Aware and Language-Independent Tokenization for Large Language Models (LLMs))
決定トランスフォーマーによる継続的オフライン強化学習の解法
(Solving Continual Offline Reinforcement Learning with Decision Transformer)
加重ℓ1ノルム正則化のためのO
(n log n)射影演算子(An O(n log n) projection operator for weighted ℓ1-norm regularization with sum constraint)
この記事をシェア

有益な情報を同僚や仲間と共有しませんか?

AI技術革新 - 人気記事
ブラックホールと量子機械学習の対応
(Black hole/quantum machine learning correspondence)
生成AI検索における敏感なユーザークエリの分類と分析
(Taxonomy and Analysis of Sensitive User Queries in Generative AI Search System)
DiReDi:AIoTアプリケーションのための蒸留と逆蒸留
(DiReDi: Distillation and Reverse Distillation for AIoT Applications)

PCも苦手だった私が

“AIに詳しい人“
として一目置かれる存在に!
  • AIBRプレミアム
  • 実践型生成AI活用キャンプ
あなたにオススメのカテゴリ
論文研究
さらに深い洞察を得る

AI戦略の専門知識を身につけ、競争優位性を構築しませんか?

AIBR プレミアム
年間たったの9,800円で
“AIに詳しい人”として一目置かれる存在に!

プレミア会員になって、山ほどあるAI論文の中から効率よく大事な情報を手に入れ、まわりと圧倒的な差をつけませんか?

詳細を見る
【実践型】
生成AI活用キャンプ
【文部科学省認可】
満足度100%の生成AI講座
3ヶ月後には、あなたも生成AIマスター!

「学ぶ」だけではなく「使える」ように。
経営者からも圧倒的な人気を誇るBBT大学の講座では、3ヶ月間質問し放題!誰1人置いていかずに寄り添います。

詳細を見る

AI Benchmark Researchをもっと見る

今すぐ購読し、続きを読んで、すべてのアーカイブにアクセスしましょう。

続きを読む