論文研究
2025.04.20
2025.12.31

教室でのLLM利用：AI支援で作成した問題の成果と認識（LLMs in the Classroom: Outcomes and Perceptions of Questions Written with the Aid of AI）

田中専務

拓海先生、お忙しいところ失礼します。最近、社員から『AIに問題作成を任せられます』と聞いて不安になりまして。これって要するに試験問題をAIに作らせて時間を節約できる、ということなのでしょうか。

AIメンター拓海

素晴らしい着眼点ですね！大丈夫、整理してお話ししますよ。結論から言えば、AIを補助として使うと効率は上がるが、学生の成績に影響が出る可能性があり、その性質は一筋縄ではありません。

田中専務

成績に影響、ですか。具体的にはどのような影響でしょうか。導入したらすぐに良くなるのか、それとも現場で混乱が起きるのかを知りたいのです。

AIメンター拓海

良い質問です。ここは要点を三つに分けて考えましょう。第一に、AIは人が見落とす細かな出題パターンを作れるため『情報の網羅性』は上がります。第二に、AIが生成する文体や出題意図は教員のものとずれることがあり、学生の解答パターンに影響します。第三に、導入の費用対効果と運用の実務設計が鍵になりますよ。

田中専務

なるほど。AIが作る問題は教員の作るものと形式が違うという点は分かりましたが、学生が『AIが作った問題』と『人間が作った問題』を見分けられるものなのでしょうか。

AIメンター拓海

素晴らしい視点ですね！研究では、学生には区別がつかない場合が多いと示されています。しかし重要なのは区別できるか否かだけではなく、学生の得点に差が出るかどうかです。実際には、AI支援の問題で学生の得点が有意に低下したという結果が報告されていますよ。

田中専務

それはまずい。要するに、AIで作った問題は見た目は似ていても、学生の点数は下がるということですか。では現場で使うにはどう調整すればよいのですか。

AIメンター拓海

その通りですよ。対策は三点です。まず、AIが作った案を教員が必ずレビューして『意図合わせ』を行うこと。次に、学習評価の指標や配点ルールを明確化して、AI生成問題が評価と整合するよう調整すること。最後に、現場で小規模に試行して実データを使いながら運用を改善することが重要です。

田中専務

費用対効果の観点がまだ気になります。AI導入のコストに見合う改善が期待できなければ、現場も首をかしげます。どのくらいの労力で効果が出るものなのでしょうか。

AIメンター拓海

素晴らしい問いですね！導入コストはツール利用料だけでなく、教員のレビュー時間や運用設計の工数も含めて評価する必要があります。研究では小規模な授業で8週間の運用データを取り、AI支援の影響を分析していますから、まずはパイロットで実データを測るのが現実的です。

田中専務

分かりました。最後にもう一度確認します。要するに、AIは時間短縮や多様な出題を作れるが、評価との整合やレビューをしないと学生の成績が下がるリスクがある、ということで宜しいですか。

AIメンター拓海

その通りですよ。要点を三つで言うと、1）AIは効率化と網羅性をもたらす、2）教員の意図とずれると評価に影響する、3）小規模での検証と運用設計が不可欠です。大丈夫、一緒にやれば必ずできますよ。

田中専務

分かりました。自分の言葉でまとめます。AIで問題を作れば時間は節約できるが、教員の教え方や配点とのズレで学生の点数が下がる可能性があり、だからまずは小さく試して教員レビューを必ず入れる、ということですね。ありがとうございました。

1.概要と位置づけ

結論を先に述べる。本研究は、Large Language Model (LLM) 大規模言語モデルを試験問題作成の補助として用いた場合、見た目では人間作成の問題と区別できない一方で、学生の得点に有意な差が生じ得ることを示した点で重要である。具体的には、ChatGPTなどのLLMを活用して作成した選択式問題と教員が単独で作成した問題を無作為に配布し、学生の正答率と学生自身の問題出自の識別能力を測定した結果、LLM支援問題で学生の得点が低下したという結果が得られた。教育現場の評価設計や品質管理の観点から、ただ単にAIを導入すれば良いという話ではなく、運用設計が結果を左右することを示している。経営的に言えば、ツール導入は効率化だけでなく評価の精度と一貫性を保つための投資配分が不可欠である。

基礎から説明すると、LLMとは大量のテキストを学習して自然言語を生成するモデルである。この特性は多様な問題文を迅速に作るという効率面の強みをもたらすが、生成された文が教員の意図や教育カリキュラムと一致するかは別問題である。重要なのは、作問の『情報の正確さ』と『意図の一致性』という二つの軸を分けて評価することである。実務者はまずここを理解しないと、導入が逆効果になるリスクを見誤るだろう。

本研究は第三学年のオペレーティングシステム（Operating Systems）科目を対象に、約8週間で25名の参加者からデータを収集した。評価方法としては、学生の正解率、学生による問題作成者の識別能力（人間かAIかの見分け）、および問題文と教科書との類似度を数値化して比較した。類似度の計測にはSentence-BERT (SBERT) を利用し、cosine similarity（コサイン類似度）で比較する手法を採った。これにより、単なる主観的評価ではなく定量的な比較が可能になっている。

この研究が位置付けられるのは、教育評価の信頼性確保とAIの実務導入の交差点である。多くの先行研究はAIの生成能力や盗用検出といった観点を扱うが、本研究は『生成物が評価結果に与える影響』を実データで示した点が新しい。したがって、教育現場だけでなく、検定試験や社内評価制度を持つ企業にとっても示唆がある。

2.先行研究との差別化ポイント

多くの先行研究は、LLMの生成品質や医療・法律分野でのタスク性能比較に焦点を当ててきた。例えば、GPT-4の技術報告やタスク別性能比較では生成能力やFew-shot学習の効率などが議論されているが、教育評価という実際のスコアに結びつく影響を実測した研究は限られる。本研究の差別化は、教員の評価と学生の成績というアウトカムに直接結びつけている点にある。つまり、生成物の質だけでなく、現場での『影響』を測るところに価値がある。

さらに、研究は教科書との類似度を定量化することでAI生成問題がどれほど教材に基づいているかを示した。これにより単なる主観評価ではなく、テキスト類似度という客観指標を用いて人間作成とAI補助作成の差分を明確にした。結果として、LLMが教科書にやや近い問題を生成する傾向が観察されたが、その近さが学習理解に直結するかは別問題であるという点が示された。

また、本研究は教員による事前校正を限定的にした条件で実施しているため、実務導入時に想定される『教員チェックあり』の運用と比較したときのリスクが浮き彫りになる。これにより、単純な自動化の追求ではなく、人とAIの役割分担をどう設計するかという議論を促す点が先行研究との違いである。経営判断としては、ここが導入可否の肝となる。

3.中核となる技術的要素

本研究で中核となる技術用語を初出で整理する。Large Language Model (LLM) 大規模言語モデルは、大量のテキストをもとに自然言語を生成するモデルであり、ChatGPTはその代表例である。Sentence-BERT (SBERT) は文の意味を埋め込みベクトルに変換するモデルで、cosine similarity（コサイン類似度）は二つのベクトルの角度の近さを測る指標である。これらを組み合わせることで、問題文と教科書の意味的近さを定量化できる。

技術的には、まずLLMに対して教科書や授業ノートを参照させるプロンプト設計が重要になる。プロンプト設計とは、AIにどのような指示を与えるかという設計行為であり、ここで与える指示が生成物の性質を大きく左右する。次に、生成された問題をSBERTでベクトル化し、教科書の該当箇所とのcosine similarityを算出することで『どれだけ教科書に近いか』を示す定量指標を得る。

だが、この技術的アプローチには限界がある。SBERTによる類似度が高くても、出題意図や解答を導くための文脈が教員の意図とずれている場合、学生の解答行動は変わる。すなわち、類似度は『情報的一致』を示すが、『教育的意図の一致』を保証するわけではない。教育評価に導入する際には、この違いを理解した上でプロセス設計する必要がある。

4.有効性の検証方法と成果

検証方法はランダム化比較に近い形で行われた。授業内で作成した選択式問題をランダムに学生へ配布し、LLM支援の問題群と人間単独作成の問題群で学生の正解率を比較した。加えて学生には各問題がAI作成か人間作成かの識別も求め、主観的認識との関係を調べた。これにより、客観的成績と主観的認識の双方を評価軸に置いた実証的な検証が可能になった。

成果として得られたのは二点である。第一に、学生は両者を見分ける能力が高くはなく、外観や文体だけでの区別は困難であった。第二に、LLM支援で作成された問題に対して学生の得点が統計的に有意に低下した点である。つまり、見た目では差が分からなくても、出題意図や解答導線の微妙な相違が学習アウトカムに影響を与えた。

また、SBERTによる教科書とのコサイン類似度を比較したところ、LLM支援問題の方が平均的に教科書に近いベクトルを示す傾向があった。これはLLMが教材情報を取り込みやすいことを示唆するが、逆に言えば教科書に忠実であっても教員の『出題の仕方』や『評価の重み』を反映しているとは限らないという示唆でもある。

5.研究を巡る議論と課題

本研究の結果から導かれる議論は二点ある。第一に、AIを導入する際の品質管理体制の設計が不可欠であること。AIは素材を素早く出すが、教員によるレビューと意図合わせなしでは評価の信頼性が損なわれる恐れがある。第二に、AIが生成する問題の『教材準拠性』と『教育意図の一致』は別次元で評価する必要があるということである。どちらか一方を満たしても、教育評価として十分でない可能性がある。

課題としては、対象が限られた授業規模であり、他分野や異なる言語環境での再現性が未検証である点が挙げられる。たとえば、英語圏に偏った学習データを持つLLMはコンピュータサイエンス分野で比較的性能を発揮するが、他分野では異なる結果になるかもしれない。したがって、企業や学校が自社の文脈で導入を検討する際には、必ず自施設でのパイロット実験を行うべきである。

6.今後の調査・学習の方向性

今後は第一に、教員レビューと自動生成を組み合わせたハイブリッド運用の最適化が研究課題になる。どの段階で人が介在すれば効率と評価精度の両立が図れるかを実データで詰める必要がある。第二に、類似度指標だけでなく『出題意図の一致度』を測る新たな評価軸の開発が求められる。第三に、分野横断的な再現実験を行い、学問領域や言語の違いが結果に与える影響を明確にすることが必要である。

検索に使える英語キーワード: “LLMs in the Classroom”, “AI-assisted question generation”, “SBERT cosine similarity”, “assessment outcomes”, “student perceptions”.

会議で使えるフレーズ集

「本研究はLLMを補助として使うと効率化は見込めるが、教員の意図合わせが不十分だと学生の成績に影響が出る可能性がある、と示しています。」

「まずはパイロット運用で実データを取り、教員レビューを必須にする運用設計を行いましょう。」

「技術的にはSBERTとcosine similarityを用いた類似度指標で教材準拠性は測れますが、出題意図の一致は別途評価が必要です。」

引用元: G. Witsken, I. Crk, E. Gultepe, “LLMs in the Classroom: Outcomes and Perceptions of Questions Written with the Aid of AI,” arXiv preprint arXiv:2503.18995v1, 2025.

CATEGORY

教室でのLLM利用：AI支援で作成した問題の成果と認識（LLMs in the Classroom: Outcomes and Perceptions of Questions Written with the Aid of AI）

1.概要と位置づけ

2.先行研究との差別化ポイント

3.中核となる技術的要素

4.有効性の検証方法と成果

5.研究を巡る議論と課題

6.今後の調査・学習の方向性

会議で使えるフレーズ集

いいね:

関連

CATEGORY

1.概要と位置づけ

2.先行研究との差別化ポイント

3.中核となる技術的要素

4.有効性の検証方法と成果

5.研究を巡る議論と課題

6.今後の調査・学習の方向性

会議で使えるフレーズ集

共有:

いいね:

関連

関連する記事

コード推論能力の強化：強化学習を用いたCodeReasoner（CodeReasoner: Enhancing the Code Reasoning Ability with Reinforcement Learning）

環境を越えて一般化する動的システムの学習（LEADS: Learning Dynamical Systems that Generalize Across Environments）

ネガティブサンプリングは本当に重要か？（Does Negative Sampling Matter? A Review with Insights into its Theory and Applications）

歩行位相検出の比較：従来の機械学習と深層学習手法（Comparison of gait phase detection using traditional machine learning and deep learning techniques）

ピクセル差分ネットワークによる効率的な視覚表現学習（From Local Binary Patterns to Pixel Difference Networks for Efficient Visual Representation Learning）

不均衡なマルチモーダル診断のためのカリキュラム学習フレームワーク（CLIMD: A Curriculum Learning Framework for Imbalanced Multimodal Diagnosis）

AI Business Reviewをもっと見る