Training Data

335
  • 論文研究

再帰的学習ループがLLMに及ぼす影響:生成データの分布シフトを左右する訓練データの性質 Recursive Training Loops in LLMs: How training data properties modulate distribution shift in generated data?

田中専務拓海さん、最近『モデルが自分で作ったデータでまた学習するとまずくなる』って話を聞きました。うちの現場でもAIを試してみたいと言われているのですが、これって現実的にどういうリスクがあるんでしょうか。AIメンター拓海素晴らしい着眼点ですね!大丈夫、一緒に整理しましょう。要点は三つで説

  • 論文研究

最良の事前学習データを小規模実験で予測する方法(DataDecide: How to Predict Best Pretraining Data with Small Experiments)

田中専務拓海先生、最近うちの若手が「DataDecideって論文が良い」って言うんですが、そもそも何を決めるための論文でしょうか。データをどう選ぶか、という話ですかね。AIメンター拓海素晴らしい着眼点ですね!DataDecideは要するに「大きな言語モデルを訓練するとき、どのデータを使え

  • 論文研究

ズウィッキー過渡観測施設における深層学習を用いた地球近傍小惑星の発見向上 (Deep Learning to Improve the Discovery of Near-Earth Asteroids in the Zwicky Transient Facility)

田中専務拓海先生、本日はある論文について伺いたいのですが、うちの工場にAIを入れるか否か判断するために要点だけ教えていただけますか。研究は天文学の話だと聞いていますが、うちの投資判断にも示唆が欲しいのです。AIメンター拓海素晴らしい着眼点ですね!今回の論文の要点は明快です。結論を先に言う

  • 論文研究

事前学習データの逐語再現を減らすParaPO(ParaPO: Aligning Language Models to Reduce Verbatim Reproduction of Pre-training Data)

田中専務拓海先生、最近の論文で「ParaPO」っていう手法が出たと聞きました。うちのような製造業でAIを使うときに、モデルが過去の文章をそのままコピーしてしまうリスクがあると聞いて心配なんです。本当にそれを抑えられるのでしょうか?AIメンター拓海素晴らしい着眼点ですね!ParaPOは、モ

  • 論文研究

合成訓練データを「少なく良くする」戦略 — Less is More: Adaptive Coverage for Synthetic Training Data

田中専務拓海先生、最近部署で合成データを使ってモデルを早く作れるって話が出ておりまして。正直、合成データって何が良くて何が怖いのか、ざっくり教えていただけますか。AIメンター拓海素晴らしい着眼点ですね!まず簡単に。合成データとは、人間がラベル付けする代わりに、Large Language

  • 論文研究

複数の事前学習モデルにおける知覚誤りに対する整合性基づく仮説生成的推論(Consistency-based Abductive Reasoning over Perceptual Errors of Multiple Pre-trained Models in Novel Environments)

田中専務拓海先生、お時間よろしいですか。部下に「複数のAIモデルを組み合わせれば現場でうまくいく」と言われたのですが、正直ピンと来ません。要するに同じことを何回も聞かせるだけで良くなるんですか?AIメンター拓海素晴らしい着眼点ですね!大丈夫、順を追って説明しますよ。今回の論文は、ただ単に

  • 論文研究

LLMが生成するライブラリインポートの頑健性(How Robust are LLM-Generated Library Imports?)

田中専務拓海先生、最近現場の若手から「AIがコードを書いてくれる」と聞いているのですが、具体的に何を勧めてくるのか、本当に使えるものか不安です。要するにライブラリの選定をAIに任せて大丈夫なのでしょうか?AIメンター拓海素晴らしい着眼点ですね!Large Language Models(

  • 論文研究

機械学習による流れの初期化で過渡的CFDを高速化する(Accelerating Transient CFD through Machine Learning-Based Flow Initialization)

田中専務拓海さん、最近うちの若手が「CFDをAIで高速化できます」って言ってきて、正直何を信じればいいか分からないんです。AIメンター拓海素晴らしい着眼点ですね!CFDは単に計算が遅いだけでなく、初期値によって無駄な時間が生まれるんですよ。今回は論文を丁寧に噛み砕いて説明しますよ。

  • 論文研究

コンテクスチュアル・コピーレフトの提案(The Case for Contextual Copyleft: Licensing Open Source Training Data and Generative AI)

田中専務拓海先生、最近社内で「AIにオープンソースを使わせると問題になる」と聞いたのですが、具体的にどういう話なのでしょうか。現場からは「使えるデータを減らすとコストが上がる」と言われており、経営としては判断が難しいです。AIメンター拓海素晴らしい着眼点ですね!要点だけ先に言うと、今回の

  • 論文研究

コードAIの学習データ検出の研究(Investigating Training Data Detection in AI Coders)

田中専務拓海先生、お忙しいところ恐縮です。最近社内で「コード書けるAI」が導入候補として挙がりまして、うちの弁護士と開発部が訝しんでいるのです。要するに、これらのAIがうちのソースを勝手に覚えて再利用するかどうかが心配でして、その点をこの論文で調べていると聞きました。それって要するにどういうこと