Kattis vs. ChatGPT:人工知能時代におけるプログラミング課題の評価と検証 (Kattis vs. ChatGPT: Assessment and Evaluation of Programming Tasks in the Age of Artificial Intelligence)

田中専務

拓海先生、お時間いただきありがとうございます。部下から「学生がChatGPTで課題を出してくる」と聞いて驚いております。今回の論文はその実態を調べたものだと伺いましたが、経営判断に直結する示唆はありますか。

AIメンター拓海

素晴らしい着眼点ですね、田中専務!結論から言うと、この研究は「一般的な入門レベルのプログラミング課題はChatGPT-3.5で一定の正解率を示すが、複雑な課題では性能が落ちる」ことを示しており、教育現場や社内研修への影響を3点に整理できますよ。

田中専務

3点、ですか。具体的にはどの点が重要でしょうか。うちの研修に影響が出そうでして、費用対効果をきちんと把握したいのです。

AIメンター拓海

大丈夫、一緒に整理しましょう。要点は、1) 入門課題の自動解答が増えれば評価方法の見直しが必要、2) 複雑課題は人の指導価値が残る、3) 教材設計や評価基準を変えればAIを教育補助として活用できる、の3点です。これは研修のコストと効果を再設計するヒントになりますよ。

田中専務

なるほど。論文はどんな実験でそれを示したのですか。ツール名や数値の信頼性も教えていただけますか。

AIメンター拓海

良い質問です。研究ではKattisという自動採点プラットフォームに載っている127題をランダムに抽出し、ChatGPT-3.5に解かせて正答率を評価しています。結果として127題中19題を独力で正解したと報告しています。ここで重要なのは、課題の難易度によって正答率が大きく変わる点です。

田中専務

Kattisというのは社内で言えば自動的に答案を採点するツールということで良いですか。これって要するに評価の“自動化”が進むということ?

AIメンター拓海

その通りです。Kattisはオンラインジャッジ(online judge、OJ、オンラインジャッジ)として、提出コードを自動で実行して正否を判定する仕組みです。要点を3つにまとめると、1) 自動採点は評価の効率化を促す、2) しかしAIの解答は入門的な単純問題に偏る、3) したがって評価方法の“質”を上げる必要がある、となります。

田中専務

現場で起きる事態としては、単純問題がAIで片付くと講師の指導時間が浮く反面、評価基準が揺らぐという理解で良いですか。では、うちの研修で実務に近い設問をどう作れば良いですか。

AIメンター拓海

良い視点です。実務に近づけるには、設問を単に「正しい出力を出す」ものから「設計の理由」「効率」「エラー処理」といった評価軸に広げると良いです。これはAIでは判断しづらい要素を評価に入れることを意味します。導入は段階的で良く、まずは評価項目を3つに絞って運用してみると現場負担が少ないです。

田中専務

なるほど。要するに、AIは道具として活用できるが、評価設計や洞察は人が残すべき、ということですね。最後に、この論文の要点を私の言葉でまとめていいですか。

AIメンター拓海

ぜひお願いします、田中専務。整理して話していただければこちらで補足しますよ。大丈夫、一緒にやれば必ずできますよ。

田中専務

では一言で。今回の研究は、ChatGPT-3.5が入門レベルのプログラミング課題を一定程度自動的に解けるが、複雑な課題では人の評価や設計の価値が残ることを示している、つまり研修や評価の見直しが必要だということ、で合っていますか。

AIメンター拓海

その通りです、田中専務。素晴らしい着眼点ですね!まさに要点を押さえています。これを元に評価基準を3点で整理し、段階的な運用計画を作れますよ。

AIBRプレミアム

関連する記事

AI Business Reviewをもっと見る

今すぐ購読し、続きを読んで、すべてのアーカイブにアクセスしましょう。

続きを読む