5 分で読了
4 views

Kattis vs. ChatGPT:人工知能時代におけるプログラミング課題の評価と検証

(Kattis vs. ChatGPT: Assessment and Evaluation of Programming Tasks in the Age of Artificial Intelligence)

さらに深い洞察を得る

AI戦略の専門知識を身につけ、競争優位性を構築しませんか?

AIBR プレミアム
年間たったの9,800円で
“AIに詳しい人”として
一目置かれる存在に!

プレミア会員になって、山ほどあるAI論文の中から効率よく大事な情報を手に入れ、まわりと圧倒的な差をつけませんか?

詳細を見る
【実践型】
生成AI活用キャンプ
【文部科学省認可】
満足度100%の生成AI講座
3ヶ月後には、
あなたも生成AIマスター!

「学ぶ」だけではなく「使える」ように。
経営者からも圧倒的な人気を誇るBBT大学の講座では、3ヶ月間質問し放題!誰1人置いていかずに寄り添います。

詳細を見る

田中専務

拓海先生、お時間いただきありがとうございます。部下から「学生がChatGPTで課題を出してくる」と聞いて驚いております。今回の論文はその実態を調べたものだと伺いましたが、経営判断に直結する示唆はありますか。

AIメンター拓海

素晴らしい着眼点ですね、田中専務!結論から言うと、この研究は「一般的な入門レベルのプログラミング課題はChatGPT-3.5で一定の正解率を示すが、複雑な課題では性能が落ちる」ことを示しており、教育現場や社内研修への影響を3点に整理できますよ。

田中専務

3点、ですか。具体的にはどの点が重要でしょうか。うちの研修に影響が出そうでして、費用対効果をきちんと把握したいのです。

AIメンター拓海

大丈夫、一緒に整理しましょう。要点は、1) 入門課題の自動解答が増えれば評価方法の見直しが必要、2) 複雑課題は人の指導価値が残る、3) 教材設計や評価基準を変えればAIを教育補助として活用できる、の3点です。これは研修のコストと効果を再設計するヒントになりますよ。

田中専務

なるほど。論文はどんな実験でそれを示したのですか。ツール名や数値の信頼性も教えていただけますか。

AIメンター拓海

良い質問です。研究ではKattisという自動採点プラットフォームに載っている127題をランダムに抽出し、ChatGPT-3.5に解かせて正答率を評価しています。結果として127題中19題を独力で正解したと報告しています。ここで重要なのは、課題の難易度によって正答率が大きく変わる点です。

田中専務

Kattisというのは社内で言えば自動的に答案を採点するツールということで良いですか。これって要するに評価の“自動化”が進むということ?

AIメンター拓海

その通りです。Kattisはオンラインジャッジ(online judge、OJ、オンラインジャッジ)として、提出コードを自動で実行して正否を判定する仕組みです。要点を3つにまとめると、1) 自動採点は評価の効率化を促す、2) しかしAIの解答は入門的な単純問題に偏る、3) したがって評価方法の“質”を上げる必要がある、となります。

田中専務

現場で起きる事態としては、単純問題がAIで片付くと講師の指導時間が浮く反面、評価基準が揺らぐという理解で良いですか。では、うちの研修で実務に近い設問をどう作れば良いですか。

AIメンター拓海

良い視点です。実務に近づけるには、設問を単に「正しい出力を出す」ものから「設計の理由」「効率」「エラー処理」といった評価軸に広げると良いです。これはAIでは判断しづらい要素を評価に入れることを意味します。導入は段階的で良く、まずは評価項目を3つに絞って運用してみると現場負担が少ないです。

田中専務

なるほど。要するに、AIは道具として活用できるが、評価設計や洞察は人が残すべき、ということですね。最後に、この論文の要点を私の言葉でまとめていいですか。

AIメンター拓海

ぜひお願いします、田中専務。整理して話していただければこちらで補足しますよ。大丈夫、一緒にやれば必ずできますよ。

田中専務

では一言で。今回の研究は、ChatGPT-3.5が入門レベルのプログラミング課題を一定程度自動的に解けるが、複雑な課題では人の評価や設計の価値が残ることを示している、つまり研修や評価の見直しが必要だということ、で合っていますか。

AIメンター拓海

その通りです、田中専務。素晴らしい着眼点ですね!まさに要点を押さえています。これを元に評価基準を3点で整理し、段階的な運用計画を作れますよ。

監修者

阪上雅昭(SAKAGAMI Masa-aki)
京都大学 人間・環境学研究科 名誉教授

論文研究シリーズ
前の記事
意味同期による通信信頼性の向上
(Semantic Synchronization for Enhanced Reliability in Communication Systems)
次の記事
不確実性下の環境に対する、インペインティングとしての計画
(Planning as In-Painting: A Diffusion-Based Embodied Task Planning Framework for Environments under Uncertainty)
関連記事
コンクリートのクラック検出における人間–ロボット協働の探索的研究
(An Exploratory Study on Crack Detection in Concrete through Human-Robot Collaboration)
自己蒸留によるメンバーシップ推論攻撃の軽減
(Mitigating Membership Inference Attacks by Self-Distillation Through a Novel Ensemble Architecture)
画像キャプショニングにおける効果的なインコンテキスト構成の解明
(Unveiling Effective In-Context Configurations for Image Captioning)
Pix2Codeによる視覚概念のプログラム化
(Pix2Code: Learning to Compose Neural Visual Concepts as Programs)
変分オートエンコーダを用いたマルコフ連鎖モンテカルロ法における広域スペクトル事前提案の生成
(Variational Autoencoder for Generating Broader-Spectrum prior Proposals in Markov chain Monte Carlo Methods)
非凸関数の和が凸になる分散最適化
(Distributed Optimization of Convex Sum of Non-Convex Functions)
この記事をシェア

有益な情報を同僚や仲間と共有しませんか?

AI技術革新 - 人気記事
ブラックホールと量子機械学習の対応
(Black hole/quantum machine learning correspondence)
生成AI検索における敏感なユーザークエリの分類と分析
(Taxonomy and Analysis of Sensitive User Queries in Generative AI Search System)
DiReDi:AIoTアプリケーションのための蒸留と逆蒸留
(DiReDi: Distillation and Reverse Distillation for AIoT Applications)

PCも苦手だった私が

“AIに詳しい人“
として一目置かれる存在に!
  • AIBRプレミアム
  • 実践型生成AI活用キャンプ
あなたにオススメのカテゴリ
論文研究
さらに深い洞察を得る

AI戦略の専門知識を身につけ、競争優位性を構築しませんか?

AIBR プレミアム
年間たったの9,800円で
“AIに詳しい人”として一目置かれる存在に!

プレミア会員になって、山ほどあるAI論文の中から効率よく大事な情報を手に入れ、まわりと圧倒的な差をつけませんか?

詳細を見る
【実践型】
生成AI活用キャンプ
【文部科学省認可】
満足度100%の生成AI講座
3ヶ月後には、あなたも生成AIマスター!

「学ぶ」だけではなく「使える」ように。
経営者からも圧倒的な人気を誇るBBT大学の講座では、3ヶ月間質問し放題!誰1人置いていかずに寄り添います。

詳細を見る

AI Benchmark Researchをもっと見る

今すぐ購読し、続きを読んで、すべてのアーカイブにアクセスしましょう。

続きを読む