Training Data

335

論文研究
2025.07.12

難易度制御拡散モデルによる学習データ合成（Training Data Synthesis with Difficulty Controlled Diffusion Model）

田中専務拓海先生、お忙しいところ失礼します。最近、部下から『合成データを使えばAIの精度が上がる』と聞いているのですが、どこまで本当か分からず困っています。要するに、お金をかけて合成データを作る価値ってあるんでしょうか。AIメンター拓海素晴らしい着眼点ですね！大丈夫、結論から言うと、ただ

Diffusion Model
, Training Data

論文研究
2025.07.11

バッチサイズを考慮した言語モデルのスケーリング則（Scaling Law for Language Models Training Considering Batch Size）

田中専務拓海さん、この論文の話を部長たちに簡潔に説明しろと言われまして、何をどう伝えればいいか途方に暮れております。要点だけ教えていただけますか。AIメンター拓海素晴らしい着眼点ですね！この論文は「バッチサイズ（batch size）と学習率（learning rate、LR）が大規模言

LLM
, Training Data

論文研究
2025.07.11

ウェブフィルタ済テキストデータセットの偏り測定と学習を通じたバイアス伝播（Measuring Bias of Web-filtered Text Datasets and Bias Propagation Through Training）

田中専務拓海先生、この論文って要点を端的に言うと何が一番変わるんですか。現場で使える示唆が気になります。AIメンター拓海素晴らしい着眼点ですね！簡潔に言うと、ウェブ由来の事前学習データセットには作られ方の違いが残す「指紋（bias）」があって、モデルはその違いを学んで出力にも反映してしま

LLM
, Training Data
, Bias
, Classification

論文研究
2025.07.10

最終モデルのみでの学習データ帰属（Final-Model-Only Data Attribution with a Unifying View of Gradient-Based Methods）

田中専務拓海先生、最近部下が「訓練データがモデルの挙動にどう効いているか」を調べるべきだと言うのですが、そもそも何を調べればいいんでしょうか。うちの現場で使えるか心配でして。AIメンター拓海素晴らしい着眼点ですね！まず端的に言うと、この論文は「最終的に手元にある学習済みモデルだけ」で、ど

Training Data

論文研究
2025.07.10

LLMのプライバシー漏洩に対するエージェント型レッドチーミング（PrivAgent: Agentic-based Red-teaming for LLM Privacy Leakage）

田中専務拓海先生、最近うちの部下が「AIは便利だが情報漏洩が怖い」と言うのですが、具体的に何が危ないのか分かりません。論文で新しい手法が出たと聞いたのですが、要点を教えていただけますか。AIメンター拓海素晴らしい着眼点ですね！大丈夫、一緒に整理しましょう。最近の研究はLLM（Large

LLM
, Reinforcement Learning
, Training Data
, Adversarial Attack

論文研究
2025.07.10

時系列基盤モデルのラベル不要な事前学習データ品質評価（Measuring Pre-training Data Quality without Labels for Time Series Foundation Models）

田中専務拓海先生、最近うちの部下が「時系列の基盤モデルを入れれば業務効率が上がる」と言うのですが、そもそも何をどう評価して選べばいいのか見当がつきません。論文が出たと聞きましたが、要点を教えていただけますか。AIメンター拓海素晴らしい着眼点ですね！今回は、ラベルのない大量の時系列データを

Training Data

論文研究
2025.07.09

トレーニングデータ影響の時間的依存を捉える手法（CAPTURING THE TEMPORAL DEPENDENCE OF TRAINING DATA INFLUENCE）

田中専務拓海先生、最近部下から「データの順番が大事だ」と聞きまして、正直ピンと来ないのですが、学問的には何が新しいんでしょうか。AIメンター拓海素晴らしい着眼点ですね！簡潔に言えば、従来の評価は「どのデータが影響したか」を並べ替えても同じだと仮定していましたが、現代の訓練はデータの順番に

LLM
, Training Data

論文研究
2025.07.09

ST-FiT: Inductive Spatial-Temporal Forecasting with Limited Training Data（限られた学習データでの帰納的時空間予測）

田中専務拓海先生、最近、社内で「時空間グラフ」って言葉を聞くようになりましてね。うちの工場や支店のデータを予測に使えるって話なんですが、現実にはほとんどの拠点にまとまった時系列データがないんです。こういう状況でも使える手法ってあるんでしょうか。AIメンター拓海素晴らしい着眼点ですね！時空

Training Data

論文研究
2025.07.08

ドローン画像によるココナッツ椰子の検出と個体数推定（Coconut Palm Tree Counting on Drone Images with Deep Object Detection and Synthetic Training Data）

田中専務拓海先生、最近うちの若手がドローンとかAIで農場の木を数えられるって言うんですが、実際どれほど現場で役に立つんですか。正直、クラウドも怖いし、投資対効果が見えないと動けません。AIメンター拓海素晴らしい着眼点ですね！大丈夫、田中さん。一緒に整理すれば投資判断はずっとシンプルになり

Training Data

論文研究
2025.07.07

Disparate Model Performance and Stability in Machine Learning Clinical Support for Diabetes and Heart Diseases（糖尿病と心疾患における機械学習臨床支援のモデル性能差と安定性）

田中専務拓海先生、お忙しいところ恐縮です。最近、部下から「AIで診断支援を導入すべきだ」と言われまして。ただ、現場のデータが偏っていると聞きまして、これって本当に使えるのか不安なんです。AIメンター拓海素晴らしい着眼点ですね！大丈夫、焦る必要はありませんよ。一緒に要点を整理すれば、現場で

Training Data
, Fairness
, Bias
, Machine learning

CATEGORY