コード事前学習が言語モデルのタスク性能に与える影響（How Does Code Pretraining Affect Language Model Task Performance?）

田中専務

拓海先生、最近「コードを混ぜて学習したモデル」がよく話題になりますが、要するに何が変わるんですか。現場に関係ありますか。

AIメンター拓海

素晴らしい着眼点ですね！大枠は簡単です。コード（source code）を含めて事前学習（pretraining）すると、構造化された出力を要する作業に強くなる一方で、純粋な言語理解や現実知識に弱くなることがあるんですよ。

田中専務

構造化された出力、というのは具体的にどういう場面ですか。うちの製造なら設計図の解釈や工程表の自動生成でしょうか。

AIメンター拓海

そのとおりです。例えば意味解析（semantic parsing）や数式、手順のように出力が明確な形式を取るタスクに向いています。コードは論理や形式的構造の教科書のような役割を果たすんです。

田中専務

逆に「弱くなる」というのは具体的にどんな例がありますか。うちの営業トークや社内文書の自然な言い回しがダメになる、みたいなことですか。

AIメンター拓海

例としては語順や形態（morphology）など言語の微妙な構造に敏感さを要するタスクや、現実世界の事実に関する問題で性能が落ちることが報告されています。要するに万能ではないんです。

田中専務

これって要するに、コードを混ぜれば算数や手順は強くなるが、言葉の細かいところや世間知は弱るということ？

AIメンター拓海

正確に言うとそう理解して差し支えありません。要点を三つにまとめますね。1) コード混合は構造化出力や算術で効果がある、2) 一部の言語的感度や事実知識が低下することがある、3) 最適な混合比は用途依存である、です。大丈夫、一緒に検討すれば最適解は見つかりますよ。

田中専務

なるほど。で、実験というのはどうやって確かめたんですか。量を同じにして比べたのか、それとも言語量を一定にして比べたのか。

AIメンター拓海

両方です。ある条件では総学習量を合わせ（competitive）、別の条件では言語データ量を固定してコードを追加する（additive）という二つの設定で比較しました。こうして因果的な影響を厳密に見るんです。

田中専務

それで我が社に当てはめるなら、どんな判断で混合比を決めればいいですか。費用対効果の観点で教えてください。

AIメンター拓海

最初に優先順位を決めます。1) 出力が形式的であるか（例: 工程表、数値変換）、2) 人間が期待する自然言語らしさが重要か、3) 知識の最新性が必要か。これに応じてコード混合を増やすか控えるかを決めます。投資対効果は用途で大きく変わるんです。

田中専務

分かりました。最後に、今日の論文の要点を私の言葉で言うとどうまとめれば良いですか。自分の言葉で説明したいものでして。

AIメンター拓海

いいですね、その確認が理解を定着させますよ。要点は三つにまとめれば伝わります。1) コード混合は構造的な問題で強みを発揮する、2) 純粋に言葉の感度や事実知を必要とするタスクでは逆効果になることがある、3) 最終的には用途に合わせて混合比を設計すべき、です。大丈夫、一緒にスライドを作りましょう。

田中専務

分かりました。では私の言葉で言います。要するに「コードを混ぜると手順や数式に強くなるが、言葉や事実に弱くなる可能性がある。だから用途に合わせて比率を決めるべきだ」ということですね。

ポリープセグメンテーションモデルの教師なし適応（Unsupervised Adaptation of Polyp Segmentation Models via Coarse-to-Fine Self-Supervision）