Training Data

335
  • 論文研究

低パープレキシティなLLM生成列とその発見場所(Low-Perplexity LLM-Generated Sequences and Where To Find Them)

田中専務拓海さん、最近の論文で「低パープレキシティ(low-perplexity)な出力」って話が出てきていると聞きました。要するにウチのAIが外部の文章をそっくり真似するリスクの話ですか?投資して大丈夫か教えてください。AIメンター拓海素晴らしい着眼点ですね!大丈夫、順を追って説明しま

  • 論文研究

REFINEX: LEARNING TO REFINE PRE-TRAINING DATA AT SCALE FROM EXPERT-GUIDED PROGRAMS(大規模における専門家誘導プログラムから学ぶ事前学習データの精密改良・REFINEX)

田中専務拓海さん、お世話になります。先日部下が『プレトレーニングデータの精錬が重要だ』と言ってきて困っているのですが、正直ピンと来ません。要するに何が変わるんでしょうか。AIメンター拓海素晴らしい着眼点ですね!まず結論を一言で言うと、REFINEXは『大量の生データを“外科的に”効率よく

  • 論文研究

大規模言語モデルにおける記憶の景観 — メカニズム、測定、軽減 (The Landscape of Memorization in LLMs: Mechanisms, Measurement, and Mitigation)

田中専務拓海先生、お時間頂きありがとうございます。最近、部下から『LLMは学習データを丸覚えして漏洩する可能性がある』と聞いて驚いております。要するに、昔のファイルを機械がそのまま吐いてしまうような話ですか?AIメンター拓海素晴らしい着眼点ですね!大丈夫、まずは落ち着いて整理しましょう。

  • 論文研究

アスペクト別感情分析のためのバランスの取れた訓練データ増強(Balanced Training Data Augmentation for Aspect-Based Sentiment Analysis)

田中専務拓海先生、お時間よろしいでしょうか。先日、部下から『ある論文がABSAに効くらしい』と聞いたのですが、何をどう変えるものかよくわからず困っています。要点だけ教えていただけますか。AIメンター拓海素晴らしい着眼点ですね!手短に結論を申し上げると、この研究は「限られた、かつ偏った(例

  • 論文研究

高い教師あり学習ユーティリティのための訓練データ生成:データ剪定と列の並び替え(Towards High Supervised Learning Utility Training Data Generation: Data Pruning and Column Reordering)

田中専務拓海さん、最近部下から「合成データで学習モデルを作れば個人情報リスクが減ります」と言われまして。ただ、現場では合成データで作ったモデルの精度が落ちると聞きますが、それって本当でしょうか。AIメンター拓海素晴らしい着眼点ですね!確かに合成データ(synthetic data)で学習

  • 論文研究

Women Sport Actions Dataset for Visual Classification Using Small-Scale Training Data(女性スポーツアクションデータセット:小規模学習データによる視覚分類)

田中専務拓海先生、最近社内で『女性選手の動きをデータ化して分析しよう』という話が出てまして。ですが何から手をつければ良いのか皆目見当がつきません。論文で何か参考になるものはありますか。AIメンター拓海素晴らしい着眼点ですね!大丈夫、データが少なくても役立つ手法と、女性のスポーツ動作に特化

  • 論文研究

事前学習データがターゲットタスクに一致すると言語モデルは改善する (Language Models Improve When Pretraining Data Matches Target Tasks)

田中専務拓海先生、最近部下から「データ選びが全てだ」と言われまして。うちのような製造業でも本当に違いが出るものなんですか?AIメンター拓海素晴らしい着眼点ですね!大切なのは「どのデータで学ばせるか」でモデルの得手不得手が変わるという点です。今回の研究は、評価したいタスクに似たデータを事前

  • 論文研究

NetReplicaによるネットワーク学習のドメイン適応解決(Addressing the ML Domain Adaptation Problem for Networking: Realistic and Controllable Training Data Generation with NetReplica)

田中専務拓海先生、最近部署で『現場でAIがうまく動かない』って話をよく聞くんですが、論文で有効な対策が出ていると聞きました。本当に現場に効く技術なんですか?AIメンター拓海素晴らしい着眼点ですね!田中専務、その問題は『ドメイン適応(Domain Adaptation)』という課題なんです。要点を先に

  • 論文研究

アラビア語ポストトレーニングデータセットのギャップに注意(Mind the Gap: A Review of Arabic Post-Training Datasets and Their Limitations)

田中専務拓海先生、最近部署で「ポストトレーニング」って単語が出てきて困っているんですが、あれは具体的に何をする工程なんでしょうか。ざっくり教えていただけますか。AIメンター拓海素晴らしい着眼点ですね!ポストトレーニングとは、既に学習済みの大規模言語モデル(Large Language M

  • 論文研究

逆ヘッセ行列ベクトル積の改良による訓練データ帰属の改善(Better Training Data Attribution via Better Inverse Hessian-Vector Products)

田中専務拓海先生、最近部下から「訓練データの影響を解析する論文が注目されている」と聞きました。要するに、どのデータがどの判断に効いているか分かるという話ですか?うちの現場でも使えるんでしょうか。AIメンター拓海素晴らしい着眼点ですね!その研究は「どの訓練データがモデルの出力にどれだけ寄与