
拓海先生、最近若手から「ChatGPTで答案作れますよ」と聞いて困っているのですが、在宅での持ち帰り試験の信頼性が一気に揺らいでいると聞きました。要するに、これってうちの評価制度にも影響しますか?

素晴らしい着眼点ですね!大丈夫、一緒に整理すれば道は見えますよ。まず結論だけを端的に言うと、在宅(take-home)試験の信頼性は脅かされているが、ChatGPTを排除するのではなく活かす方法で整備すれば、むしろ評価の質を保てるんです。

それは興味深いですけど、現実的にはどういう方向性でしょうか。投資対効果という観点で、手間やコストをかけずに導入できるのでしょうか。

いい質問ですね。要点を3つにまとめます。1)ChatGPTを禁止するのはコストが高く、完全排除は実務的でない。2)ChatGPTを前提にした問題設計や評価手順に変えることで整合性を保てる。3)実装は段階的で済むため、初期投資は限定的にできるんです。

具体例で説明していただけますか。現場の係長や課長がすぐ使えるようなイメージが欲しいのです。

たとえば、単に解答を求める試験を止め、受験者が自分の問題設定を書き、その過程でAIをどう使ったかを説明させる、というやり方です。AIの出力をベースにしても最終的な評価は人間が行うため、学びの深さを評価できますよ。

これって要するに、AIを「敵」と見なすのではなく「評価プロセスの一部」として包括すると言うことですか?

その通りですよ。大切なのはAIの出力の存在を前提に評価基準を再設計することです。方法は複数ありますが、共通する狙いは「AIを活用しても個々の思考力と説明責任が明確に示される」仕組みを作ることです。

説明責任の部分で不正をどう見抜けるのかが心配です。AIが作った文を張り付けて終わり、というケースを避けられるのか教えてください。

検出だけに頼るのは限界があります。そこで有効なのは、出力の一貫性や因果の説明、個別化されたプロンプト(入力)履歴の提示を受験者に義務付けることです。具体的には、AIにどんな質問をしたか、AIの回答をどう解釈して自分の答えに組み込んだかを記述させます。

それでも現場で採点する人の負担が増えませんか。うちの人は忙しいので、採点工数が跳ね上がるのは避けたいのです。

負担を抑える工夫も可能です。評価基準を標準化し、チェックリスト的な観点を少数に絞るとともに、AIを活用して一次フィルタを行うことで人間の最終判断に集中できます。つまり最初は工数が増えても、運用を定着させれば効率は回復しますよ。

実際に社内で試すとしたら、初期に何を優先すべきでしょうか。素人でも取り組める手順があれば教えてください。

順序は簡単です。まず短期間のパイロットを設定して評価目的を明確化し、次に受験者にプロンプト履歴と解釈を提出させるルールを作り、最後に採点者向けの簡易チェックリストを用意します。大丈夫、できないことはない、まだ知らないだけです。

なるほど。要は、AIを排除するのではなく、AIの痕跡と受験者の思考をセットで評価する。投資は段階的で、最初は試験規程の改定と採点ルール作りに集中する、と理解して良いですか。

その通りですよ、田中専務。要点は3つ、AIを排除しない、出力の使い方を問う、採点負荷は段階的に解決する。大丈夫、一緒にやれば必ずできますよ。

分かりました。自分の言葉で言うと、「AIがいても評価を保てるのは、AI出力の利用履歴と受験者自身の解釈説明をセットにして評価する仕組みを導入すること」とまとめます。まずは小さく試して、ルールを固める方向で進めます。
