Training Data

335

論文研究
2025.08.06

低パープレキシティなLLM生成列とその発見場所（Low-Perplexity LLM-Generated Sequences and Where To Find Them）

田中専務拓海さん、最近の論文で「低パープレキシティ（low-perplexity）な出力」って話が出てきていると聞きました。要するにウチのAIが外部の文章をそっくり真似するリスクの話ですか？投資して大丈夫か教えてください。AIメンター拓海素晴らしい着眼点ですね！大丈夫、順を追って説明しま

LLM
, Training Data

論文研究
2025.08.05

REFINEX: LEARNING TO REFINE PRE-TRAINING DATA AT SCALE FROM EXPERT-GUIDED PROGRAMS（大規模における専門家誘導プログラムから学ぶ事前学習データの精密改良・REFINEX）

田中専務拓海さん、お世話になります。先日部下が『プレトレーニングデータの精錬が重要だ』と言ってきて困っているのですが、正直ピンと来ません。要するに何が変わるんでしょうか。AIメンター拓海素晴らしい着眼点ですね！まず結論を一言で言うと、REFINEXは『大量の生データを“外科的に”効率よく

LLM
, Evaluation
, Training Data

論文研究
2025.08.05

大規模言語モデルにおける記憶の景観 — メカニズム、測定、軽減 (The Landscape of Memorization in LLMs: Mechanisms, Measurement, and Mitigation)

田中専務拓海先生、お時間頂きありがとうございます。最近、部下から『LLMは学習データを丸覚えして漏洩する可能性がある』と聞いて驚いております。要するに、昔のファイルを機械がそのまま吐いてしまうような話ですか？AIメンター拓海素晴らしい着眼点ですね！大丈夫、まずは落ち着いて整理しましょう。

LLM
, Training Data

論文研究
2025.08.04

アスペクト別感情分析のためのバランスの取れた訓練データ増強（Balanced Training Data Augmentation for Aspect-Based Sentiment Analysis）

田中専務拓海先生、お時間よろしいでしょうか。先日、部下から『ある論文がABSAに効くらしい』と聞いたのですが、何をどう変えるものかよくわからず困っています。要点だけ教えていただけますか。AIメンター拓海素晴らしい着眼点ですね！手短に結論を申し上げると、この研究は「限られた、かつ偏った（例

LLM
, Reinforcement Learning
, Training Data

論文研究
2025.08.04

高い教師あり学習ユーティリティのための訓練データ生成：データ剪定と列の並び替え（Towards High Supervised Learning Utility Training Data Generation: Data Pruning and Column Reordering）

田中専務拓海さん、最近部下から「合成データで学習モデルを作れば個人情報リスクが減ります」と言われまして。ただ、現場では合成データで作ったモデルの精度が落ちると聞きますが、それって本当でしょうか。AIメンター拓海素晴らしい着眼点ですね！確かに合成データ（synthetic data）で学習

Training Data

論文研究
2025.08.03

Women Sport Actions Dataset for Visual Classification Using Small-Scale Training Data（女性スポーツアクションデータセット：小規模学習データによる視覚分類）

田中専務拓海先生、最近社内で『女性選手の動きをデータ化して分析しよう』という話が出てまして。ですが何から手をつければ良いのか皆目見当がつきません。論文で何か参考になるものはありますか。AIメンター拓海素晴らしい着眼点ですね！大丈夫、データが少なくても役立つ手法と、女性のスポーツ動作に特化

Training Data
, Classification

論文研究
2025.08.03

事前学習データがターゲットタスクに一致すると言語モデルは改善する (Language Models Improve When Pretraining Data Matches Target Tasks)

田中専務拓海先生、最近部下から「データ選びが全てだ」と言われまして。うちのような製造業でも本当に違いが出るものなんですか？AIメンター拓海素晴らしい着眼点ですね！大切なのは「どのデータで学ばせるか」でモデルの得手不得手が変わるという点です。今回の研究は、評価したいタスクに似たデータを事前

Training Data

論文研究
2025.08.03

NetReplicaによるネットワーク学習のドメイン適応解決（Addressing the ML Domain Adaptation Problem for Networking: Realistic and Controllable Training Data Generation with NetReplica）

田中専務拓海先生、最近部署で『現場でAIがうまく動かない』って話をよく聞くんですが、論文で有効な対策が出ていると聞きました。本当に現場に効く技術なんですか？AIメンター拓海素晴らしい着眼点ですね！田中専務、その問題は『ドメイン適応（Domain Adaptation）』という課題なんです。要点を先に

Training Data
, Machine learning

論文研究
2025.08.03

アラビア語ポストトレーニングデータセットのギャップに注意（Mind the Gap: A Review of Arabic Post-Training Datasets and Their Limitations）

田中専務拓海先生、最近部署で「ポストトレーニング」って単語が出てきて困っているんですが、あれは具体的に何をする工程なんでしょうか。ざっくり教えていただけますか。AIメンター拓海素晴らしい着眼点ですね！ポストトレーニングとは、既に学習済みの大規模言語モデル（Large Language M

LLM
, Training Data

論文研究
2025.08.03

逆ヘッセ行列ベクトル積の改良による訓練データ帰属の改善（Better Training Data Attribution via Better Inverse Hessian-Vector Products）

田中専務拓海先生、最近部下から「訓練データの影響を解析する論文が注目されている」と聞きました。要するに、どのデータがどの判断に効いているか分かるという話ですか？うちの現場でも使えるんでしょうか。AIメンター拓海素晴らしい着眼点ですね！その研究は「どの訓練データがモデルの出力にどれだけ寄与

Training Data

CATEGORY