Training Data

335
  • 論文研究

オンラインデータ市場におけるバランスの取れた学習データ生産のコスト(The Cost of Balanced Training-Data Production in an Online Data Market)

田中専務拓海先生、最近部下にAI関連の報告を受けていると「データの偏り」「公平性」という言葉がよく出てきます。弊社もAIを使いたいが、まずは基礎的な議論の整理からお願いできますか。AIメンター拓海素晴らしい着眼点ですね!大丈夫、一緒に整理すれば必ずわかりますよ。今日はオンラインのデータ市

  • 論文研究

未知の評価タスクからのフィードバックで学習データ混合を最適化するDUET(DUET: Optimizing Training Data Mixtures via Feedback from Unseen Evaluation Tasks)

田中専務拓海先生、お忙しいところ失礼します。最近、部下が『特定の業務に合わせてモデルをチューニングしよう』と言うのですが、その“合わせる”という作業の正体がよく分かりません。要するに、どのデータを学習に使えばいいかを決める話ですよね?AIメンター拓海素晴らしい着眼点ですね!その通りです。

  • 論文研究

ファインチューニング時の忘却に関するスケーリング法則(Scaling Laws for Forgetting during Finetuning with Pretraining Data Injection)

田中専務拓海さん、最近部下から『ファインチューニングでモデルが元の知識を忘れる』って話を聞きまして。実務で使うとなると現場のデータは少ないのに心配でして、本当に対策はあるんでしょうか。AIメンター拓海素晴らしい着眼点ですね!大丈夫、非常に実務的な研究がありますよ。要点は三つで、少量の既存

  • 論文研究

事前学習データが予測する固有バイアスと視覚言語エンコーダにおける下流性能との相関(Intrinsic Bias is Predicted by Pretraining Data and Correlates with Downstream Performance in Vision-Language Encoders)

田中専務拓海先生、最近若手がCLIPってのを入れれば何でも良くなるって言うんですが、うちの現場に導入して本当に得になるんでしょうか。バイアスとか性能の話が混ざっていて、頭が痛いです。AIメンター拓海素晴らしい着眼点ですね!CLIPはVision–Language Encoders(視覚と

  • 論文研究

PASER:効率的な剪定済み大規模言語モデル回復のための事後訓練データ選択(Post-Training Data Selection for Efficient Pruned Large Language Model Recovery)

田中専務拓海さん、最近若手が『PASER』って論文を持ってきて、うちでもモデルを軽くして使えないかと言われたんですけど、正直よく分からないんですよ。そもそも剪定って投資に見合うんでしょうか。AIメンター拓海素晴らしい着眼点ですね!大丈夫、一緒に整理しましょう。まず結論を三つでまとめますよ

  • 論文研究

TREECUTによる無答えな数学ワード問題でLLMの幻覚を評価する(TREECUT: A Synthetic Unanswerable Math Word Problem Dataset for LLM Hallucination Evaluation)

田中専務拓海先生、最近部下が『大きな言語モデル(LLM)が数学の問題まで解ける』って騒いでましてね。本当に経営判断に使えるんでしょうか。うちの現場で変な答えを出されたら困ります。AIメンター拓海素晴らしい着眼点ですね!大丈夫、まず結論は簡単です。最新の研究で、LLMは見かけ上は正解を出す

  • 論文研究

DIS-CO:VLM(視覚言語モデル)の学習データに含まれる著作権保護コンテンツの発見 — DIS-CO: Discovering Copyrighted Content in VLMs Training Data

田中専務拓海先生、最近ニュースで「あるモデルが映画の画像を覚えている」みたいな話を見ました。うちの会社もAIを導入しようとしていて、訓練データに既存の著作物が含まれているかどうか心配です。要点を教えていただけますか。AIメンター拓海素晴らしい着眼点ですね!いい質問です。端的に言うと、こ

  • 論文研究

予測的データ選択:予測するデータこそ学ばせるデータである(Predictive Data Selection: The Data That Predicts Is the Data That Teaches)

田中専務拓海先生、最近部下から「PRESELECTっていう手法が良いらしい」と聞いたのですが、正直何が良いのか分からなくて困っています。要するに、どんな問題を解いているんでしょうか。AIメンター拓海素晴らしい着眼点ですね!大丈夫、一緒に整理しましょう。要点を三つだけ先にお伝えします。第一

  • 論文研究

次世代基盤MLLMに向けた自己改善による系統的認知の一歩(Will Pre-Training Ever End? A First Step Toward Next-Generation Foundation MLLMs via Self-Improving Systematic Cognition)

田中専務拓海先生、最近話題の論文について聞きました。要するに、事前学習(pre-training)をもう延々とやるだけではダメで、モデル自身が自分でデータを作って賢くなる仕組みを提案していると聞きましたが、本当ですか?うちの投資判断に関わる話なので噛み砕いて教えてください。AIメンター拓海

  • 論文研究

実験マイクログラフの深層学習によるノイズ除去(Deep Learning Assisted Denoising of Experimental Micrographs)

田中専務拓海先生、最近部下から「顕微鏡画像のノイズをAIで取れるらしい」と言われて戸惑っています。うちの現場も古い光学顕微鏡で撮った画像が解析に使えないと言われることが多いのですが、本当に実務で役に立つのですか?AIメンター拓海素晴らしい着眼点ですね!大丈夫、現場で使える可能性は高いです