AI生成設問の認知フレームワーク整合性評価(Assessing AI-Generated Questions’ Alignment with Cognitive Frameworks in Educational Assessment)

田中専務

拓海先生、最近若手からAIで自動的に試験問題が作れるって話を聞きまして、当社の教育や評価に使えるか知りたいのです。要するに、AIが作った問題で本当に学力が測れるようになるのですか?

AIメンター拓海

素晴らしい着眼点ですね!大丈夫、一緒に分かりやすく整理しますよ。結論から言うと、AIは基礎的な記憶や理解を問う問題は上手に作れるが、応用や創造といった高次の思考を正確に狙うのはまだ苦手なんです。

田中専務

なるほど、ところでその評価の基準となっているのはBloomの何とかってやつですね?それが要するに何を意味するんでしょうか。これって要するに教育の階層を決める指標ということ?

AIメンター拓海

素晴らしい着眼点ですね!その通りです。Bloom’s Taxonomy(ブルームの分類法、学習目標の階層)は学習の目標を低次から高次へ並べた枠組みで、記憶→理解→応用→分析→評価→創造、という流れで学習効果を設計するための地図のようなものですよ。

田中専務

で、今回の研究ではAIが生成した問題がその地図のどの位置に一致しているかを調べた、という理解でいいですか。現場で使うなら、低コストで妥当性の高い問題が作れるのが理想なんですが。

AIメンター拓海

素晴らしい着眼点ですね!正解です。研究はOneClickQuizというMoodle向けプラグインで生成したMCQ(Multiple-Choice Question、選択肢式問題)をBloomの階層に照らし合わせて評価しました。要点は3つです。①AIは低次の問題を安定して生成できる、②高次の問題は設計の工夫と人のレビューが必要、③評価モデルの性能によって整合性が変わる、ということです。

田中専務

それは現実的ですね。現場に落とす際は人の関与が要ると。具体的にはどのくらいの作業が残るのですか。人手を減らすという期待値をどう管理すればいいですか。

AIメンター拓海

素晴らしい着眼点ですね!運用面では3段階で考えると実務的です。まずAIで大量の骨子を生成して作業時間を短縮する、次に教科や職務に精通した人が高次問題の検討と修正を行う、最後に教師やトレーナーが現場での妥当性を確認する。これで効率と品質の両方を担保できますよ。

田中専務

なるほど、AIは道具で、人が最終責任を持つと。最後に一つだけ、設問の偏りやバイアスの心配はありますか。うちの社員に不公平な問題が出るのは避けたいのです。

AIメンター拓海

素晴らしい着眼点ですね!その懸念は正当です。論文でも生成質問の言語や文脈を精査して偏見が含まれないか検査しています。実務ではサンプル検査と多様なレビュアーによる確認をルール化すればリスクは大幅に下がりますよ。

田中専務

分かりました。要はAIでコストを下げつつ、人が監督して高次の質を担保する運用にすれば良いのですね。私の言葉でまとめると、AIは下請け作業を取りまとめ、人が最終チェックをすることで運用可能になる、ということですか。

AIメンター拓海

その通りです!大丈夫、一緒にやれば必ずできますよ。まずは小さな領域で試験導入して、生成→レビュー→運用フローを確立することをお勧めします。

AIBRプレミアム

関連する記事

AI Business Reviewをもっと見る

今すぐ購読し、続きを読んで、すべてのアーカイブにアクセスしましょう。

続きを読む