4 分で読了
1 views

外れ値は協調学習を台無しにするか

(Do Outliers Ruin Collaboration?)

さらに深い洞察を得る

AI戦略の専門知識を身につけ、競争優位性を構築しませんか?

AIBR プレミアム
年間たったの9,800円で
“AIに詳しい人”として
一目置かれる存在に!

プレミア会員になって、山ほどあるAI論文の中から効率よく大事な情報を手に入れ、まわりと圧倒的な差をつけませんか?

詳細を見る
【実践型】
生成AI活用キャンプ
【文部科学省認可】
満足度100%の生成AI講座
3ヶ月後には、
あなたも生成AIマスター!

「学ぶ」だけではなく「使える」ように。
経営者からも圧倒的な人気を誇るBBT大学の講座では、3ヶ月間質問し放題!誰1人置いていかずに寄り添います。

詳細を見る

田中専務

拓海先生、最近部下から「複数拠点のデータを全部集めて学ばせれば良い」と言われまして、でもどこかの拠点が悪意あるデータを出したら困るんじゃないですか。これって実務上どう考えれば良いのですか。

AIメンター拓海

素晴らしい着眼点ですね!結論を先に言うと、大部分の拠点が「正直」ならば、少数の悪意ある拠点(アウトライヤー)がいても学習のサンプル量は大きく悪化しないことが理論的に示されていますよ。

田中専務

それは頼もしい話ですね。でも要点だけでいいです、私の頭に残るように三つくらいにまとめてもらえますか。

AIメンター拓海

大丈夫、一緒にやれば必ずできますよ。要点は三つです。一つ目、悪意ある拠点が最大で全体のη(イータ)という割合までなら、サンプル数の増加はηn(イータ×拠点数)に比例する程度で済むこと。二つ目、最良の理論的手法はそのオーバーヘッドが最小限であること。三つ目、計算時間は別問題で、効率よく判別するのは難しい可能性があることです。

田中専務

なるほど。で、これって要するにデータの一部が敵対的でもサンプル数はそこまで増えないということ?

AIメンター拓海

その理解でほぼ合っていますよ。正確には、学習に必要な追加サンプル(オーバーヘッド)は理論的にO(ηn + ln n)という形で評価され、この式は最悪ケースで最適であると示されています。つまり、悪意の総数ηnが支配的だという見方で構いません。

田中専務

それなら現場に聞くのは簡単で、どれくらいの拠点が怪しいかを見積もれば良いんですね。ただ、計算が遅いと運用に支障が出そうです。

AIメンター拓海

良い勘です。論文はサンプル効率は確保できるが、提案アルゴリズムは真面目なユーザ集合を全列挙するため非現実的に計算量が大きいと述べています。計算資源と時間の見積もりをしっかりする必要があるのです。

田中専務

要は投資対効果の問題ですね。サンプル数が増えるのは我慢できても、処理時間が跳ね上がるなら導入は躊躇します。

AIメンター拓海

おっしゃる通りです。実務では三つの観点で判断すると良いです。第一に、ηの大きさ、すなわち疑わしい拠点の割合の見積もり。第二に、サンプル収集のコストと許容できるオーバーヘッド。第三に、計算時間とそのためのエンジニア作業量。この三つを天秤にかければ合理的な判断ができますよ。

田中専務

分かりました。最後に私の言葉で確認します。これって要するに、正直な拠点が多数ならアウトライヤーがいても学習はそれほど壊れないが、判別のための計算は手間がかかるので運用上の設計が重要だ、ということで合っていますか。

AIメンター拓海

その理解で完璧ですよ。大変よくまとめられました。現場での実行計画を一緒に作りましょう。

監修者

阪上雅昭(SAKAGAMI Masa-aki)
京都大学 人間・環境学研究科 名誉教授

論文研究シリーズ
前の記事
回帰問題のプール型逐次能動学習
(Pool-Based Sequential Active Learning for Regression)
次の記事
強化学習のハイパーパラメータ自動設定
(Towards Autonomous Reinforcement Learning: Automatic Setting of Hyper-parameters using Bayesian Optimization)
関連記事
暗号化されたVision Transformerモデルのランダムアンサンブルによる敵対的事例に対する強化されたセキュリティ
(Enhanced Security against Adversarial Examples Using a Random Ensemble of Encrypted Vision Transformer Models)
SeCoKD:少ないショットでインコンテキスト学習を可能にする大規模言語モデルの整合
(SeCoKD: Aligning Large Language Models for In-Context Learning with Fewer Shots)
画像デモザイキングのための周波数強調
(Frequency Enhancement for Image Demosaicking)
過去の逐次更新を活用した個別化フェデレーテッド・アダプタ調整
(Look Back for More: Harnessing Historical Sequential Updates for Personalized Federated Adapter Tuning)
確率的推論としての制御による創発的通信メカニズム
(Control as Probabilistic Inference as an Emergent Communication Mechanism in Multi-Agent Reinforcement Learning)
勾配フロッシング:ヤコビアンの動的制御による勾配降下の改善
(Gradient Flossing: Improving Gradient Descent through Dynamic Control of Jacobians)
この記事をシェア

有益な情報を同僚や仲間と共有しませんか?

AI技術革新 - 人気記事
ブラックホールと量子機械学習の対応
(Black hole/quantum machine learning correspondence)
生成AI検索における敏感なユーザークエリの分類と分析
(Taxonomy and Analysis of Sensitive User Queries in Generative AI Search System)
DiReDi:AIoTアプリケーションのための蒸留と逆蒸留
(DiReDi: Distillation and Reverse Distillation for AIoT Applications)

PCも苦手だった私が

“AIに詳しい人“
として一目置かれる存在に!
  • AIBRプレミアム
  • 実践型生成AI活用キャンプ
あなたにオススメのカテゴリ
論文研究
さらに深い洞察を得る

AI戦略の専門知識を身につけ、競争優位性を構築しませんか?

AIBR プレミアム
年間たったの9,800円で
“AIに詳しい人”として一目置かれる存在に!

プレミア会員になって、山ほどあるAI論文の中から効率よく大事な情報を手に入れ、まわりと圧倒的な差をつけませんか?

詳細を見る
【実践型】
生成AI活用キャンプ
【文部科学省認可】
満足度100%の生成AI講座
3ヶ月後には、あなたも生成AIマスター!

「学ぶ」だけではなく「使える」ように。
経営者からも圧倒的な人気を誇るBBT大学の講座では、3ヶ月間質問し放題!誰1人置いていかずに寄り添います。

詳細を見る

AI Benchmark Researchをもっと見る

今すぐ購読し、続きを読んで、すべてのアーカイブにアクセスしましょう。

続きを読む