2026.03.16

論文研究

11 分で読了

0 views

物理教育における標準化評価は何を測っているか

（What are we assessing? An analysis of the most common concept inventories in physics）

#Evaluation

- メールで送る
- リンクをコピーする

AI戦略の専門知識を身につけ、競争優位性を構築しませんか？

AIBR プレミアム

年間たったの9,800円で

“AIに詳しい人”として
一目置かれる存在に！

プレミア会員になって、山ほどあるAI論文の中から効率よく大事な情報を手に入れ、まわりと圧倒的な差をつけませんか？

詳細を見る

【実践型】
生成AI活用キャンプ

【文部科学省認可】
満足度100%の生成AI講座

3ヶ月後には、
あなたも生成AIマスター！

「学ぶ」だけではなく「使える」ように。
経営者からも圧倒的な人気を誇るBBT大学の講座では、3ヶ月間質問し放題！誰1人置いていかずに寄り添います。

詳細を見る

田中専務

拓海先生、最近うちの若手が「評価を変えろ」と言ってきましてね。何やら物理教育のテストが昔と違うんだと。要するに、今のテストって何を評価しているんですか？

AIメンター拓海

素晴らしい着眼点ですね！結論から言うと、この論文は「従来の概念理解中心の標準化テスト（concept inventories）が、実際の学習目標であるThree-Dimensional Learning（3DL：三次元学習）を十分に測れているかを検証した」研究です。大丈夫、一緒に噛み砕いていきますよ。

田中専務

3DLですか。難しそうですね。経営で言えば「知っているか」じゃなくて「仕事ができるか」を見たい、みたいな話ですか？

AIメンター拓海

素晴らしい着眼点ですね！その通りです。Three-Dimensional Learning（3DL：三次元学習）は「核心となる概念（core ideas）」「学際的に使える横断的概念（crosscutting concepts）」「科学的実践（scientific practices）」の三つを同時に育てることを重視します。要点は三つです。既存テストの対象範囲、3DLを評価する仕組み、そして差分です。

田中専務

で、どのテストを調べているんですか？うちの現場で使えそうな話になりそうなら聞きたいのですが。

AIメンター拓海

調査対象は教育でよく使われる四つの概念評価テストです。Force Concept Inventory（FCI：力の概念評価）、Force and Motion Conceptual Evaluation（FMCE：力と運動の概念評価）、Conceptual Survey of Electricity and Magnetism（CSEM：電磁気の概念調査）、Brief Electricity and Magnetism Assessment（BEMA：電磁気の簡易評価）。これらが、概念理解を評価する代表選手です。

田中専務

これって要するに概念理解だけを評価しているということ？

AIメンター拓海

その疑問は核心を突いています。論文はまさにそこを検証しました。分析手法はThree-Dimensional Learning Assessment Protocol（3D-LAP：三次元学習評価プロトコル）を用いて、各問題が三次元学習のどれを測れる可能性があるかをコーディングしました。結果は一言で言えば「多くの項目が概念（core ideas）中心で、科学的実践や横断的概念を十分に測る設問は少ない」です。

田中専務

なるほど。要は昔ながらのテストだと「知っているか」を測るけど、「使えるか」は見えにくいと。うちの研修で言えば、チェックシートだけで現場力は見えない、みたいなことですか。

AIメンター拓海

その比喩はとても分かりやすいです。実務で言えば三つのポイントを考える必要があります。評価が何を目的とするか、評価の結果で何を変えるか、そして評価手法そのものをどう整備するか。論文は評価手法の現状把握を通じて、教育現場が次に何を変えるべきかの示唆を与えています。

田中専務

分かりました。自分の言葉で整理しますと、「代表的な概念テストは概念の理解を見るのに有効だが、実際の技能や科学のやり方を測るのには不十分。だから評価を変えないと教育も変わらない」ということですね。

AIメンター拓海

まさにその通りですよ。大丈夫、一緒に取り組めば必ずできます。次は本文で要点を整理していきますね。

1.概要と位置づけ

結論を先に述べる。物理教育で長年用いられてきた概念評価テスト（concept inventories）は、学生の「概念的理解」を測るには有効だが、教育現場で近年重視されるThree-Dimensional Learning（3DL：三次元学習）を包括的に示すには不十分である。本論文はFour common concept inventories（FCI、FMCE、CSEM、BEMA）をThree-Dimensional Learning Assessment Protocol（3D-LAP：三次元学習評価プロトコル）でコード化し、どの程度3DLの証拠を提供しうるかを評価した。

重要性は明確だ。評価は教育の舵取りを決める指標であり、何を測るかによって授業設計や教材、教師の行動が変わる。もし評価が旧来の概念偏重のままであれば、授業改善は概念理解の向上に偏り、科学的実践や横断的概念の育成が後回しになる危険がある。

本研究は、評価と学習目標の整合性を問う点で位置づけられる。従来研究が概念の測定法やテストの信頼度に主眼を置いてきたのに対して、本研究は評価項目が新しい学習目標である3DLに対してどのように機能するかを系統的に明らかにした点で差別化される。

実務的な帰結も示される。教育改善を狙う組織は、測定ツールそのものを見直すか、既存の評価データに対して3DLの観点を加味した解釈を行う必要がある。評価そのものを「アップデート」しなければ、教育投資の効果測定が歪む。

最終的に、本論文は評価の役割を再定義する警鐘である。評価が示すものと示さないものを明確にし、次の設計アクションを議論するための出発点を提供している。

2.先行研究との差別化ポイント

先行研究は主に概念評価テスト（concept inventories）の信頼性や妥当性、学習効果の検証に焦点を当ててきた。これらの研究は、どの設問が学生の誤概念を暴き、授業改善に活用できるかを示した点で教育コミュニティに大きな貢献をした。

しかし近年、教育目標は単なる概念理解を超え、科学的実践（scientific practices）や横断的概念（crosscutting concepts）を含むThree-Dimensional Learning（3DL）へと拡大している。先行研究は測定対象の変化に対する対応を必ずしも提供していない。

本研究の差別化は、既存の標準化テストが新しい学習目標に対してどの程度「証拠」を提供できるかを定量的・定性的に評価した点にある。使用したツールはThree-Dimensional Learning Assessment Protocol（3D-LAP）で、設問単位で3DLのどの側面を提供するかを明示的にコーディングした。

この方法は、単にテストの成績差を議論するのではなく、テスト設計の構造的限界を明らかにする。結果として教育改革を議論する際に、評価ツールの更新が必要か否かをデータに基づき議論できる点が新規性である。

したがって、従来の「テストで成績が上がった／下がった」という議論から一歩進み、そもそも何を測っているのかを問い直す視点を与えたことが本研究の本質的貢献である。

3.中核となる技術的要素

本研究の中心はThree-Dimensional Learning Assessment Protocol（3D-LAP：三次元学習評価プロトコル）である。3D-LAPは各設問が三次元学習のどの側面（核心的概念＝core ideas、横断的概念＝crosscutting concepts、科学的実践＝scientific practices）を活性化するかを評価するフレームワークである。これにより設問が持つ評価可能性を分類できる。

解析対象のテストはForce Concept Inventory（FCI）、Force and Motion Conceptual Evaluation（FMCE）、Conceptual Survey of Electricity and Magnetism（CSEM）、Brief Electricity and Magnetism Assessment（BEMA）であり、いずれも入門物理教育で広く用いられる標準化評価である。各設問は3D-LAPを用いてコーディングされ、その分布を比較・解析した。

技術的には、設問のコーディングは複数の評価者による信頼性確認を行い、どの程度の割合で「3DLの複数側面」を含むかを測定している。ここで重要なのは、設問の形式（多肢選択式が多い）自体が科学的実践を引き出しにくい可能性がある点だ。

結果的に、本研究は評価ツールの設計と評価目標の整合性を議論するための具体的な診断手法を示した。技術的な示唆は、テスト形式の見直しと、新たな評価設問の開発に直接つながる。

4.有効性の検証方法と成果

検証方法は定性的なコーディングと定量的な集計を組み合わせるものである。3D-LAPに基づき各設問を「どの次元をどの程度含むか」でラベリングし、その分布をテストごとに比較した。評価者間信頼性を確保するために複数の研究者でコーディングを行った。

主要な成果は一貫していた。多くの設問が核心的概念（core ideas）を扱っており、科学的実践（scientific practices）や横断的概念（crosscutting concepts）を明確に評価する設問は相対的に少ない。つまり、現在の標準的な概念テストは3DLの全体像を提示するには偏りがある。

この発見は教育現場に直接的な含意を持つ。具体的には、既存のテストスコアを用いて教育効果を評価する際に、測定しているものが概念理解に偏る点を踏まえた解釈が必要である。短期的には、カリキュラム評価の指標を再検討する必要がある。

また、成果は評価ツールの補完的利用を促す。たとえば、既存の概念テストに加えて、実践的な課題やプロジェクト評価を導入することで3DLに近づけるという実務的な方向性が示された。

5.研究を巡る議論と課題

議論の中心は「何を評価すべきか」という哲学的問いと、現実的な運用性のトレードオフである。3DLを完全に評価する試験を設計することは可能だが、採点工数や標準化の難しさという現実的制約がある。多肢選択式の利便性と3DLの評価力の間で妥協が必要である。

加えて、コーディング自体の主観性や文化・教育背景による設問解釈の差も課題である。評価者訓練の標準化や、国や教育制度ごとの適用可能性検証が不可欠である。ここは特に実務で評価を導入する際に見落としてはならない点である。

さらに、教育現場における導入コストの問題がある。新しい評価を導入するには教員研修、採点基準の整備、システム化が必要であり、経営判断としては投資対効果を慎重に検討する必要がある。

しかしながら、評価を更新しないことの機会損失も大きい。学習目標と評価がずれたまま投資を続けると、人的資源や教材の効果が過小評価あるいは過大評価される危険があるため、長期的な視点での再設計が推奨される。

6.今後の調査・学習の方向性

今後は三つの実務的方向性がある。第一に、3DLを測る実践的で採点可能な評価設問の開発である。第二に、既存の概念評価テストを補完する多様な評価手法――たとえばルーブリック付きの実践課題やプロジェクト評価――を体系的に導入すること。第三に、評価データの解釈を改善し、測定の限界を経営層が理解した上で意思決定に使う運用ルールを整備することである。

企業や教育機関が取り組むべきは評価のアップデートと、その結果に基づく教育投資の再配分である。短期的なコストは発生するが、長期的には現場力や問題解決力の向上という形で回収できる可能性が高い。

最後に、研究者と実務者の協業が重要である。研究は評価理論とツールを提供し、現場は実運用上の制約とニーズを持ち込む。双方が連携することで、実効的で継続可能な評価システムの構築が可能になる。

以上の理解を踏まえれば、経営判断としては評価ツールの選定と教育投資のKPIの見直しを優先課題に据えるべきである。

検索に使える英語キーワード

Three-Dimensional Learning (3DL), 3D-LAP, concept inventories, Force Concept Inventory, FMCE, CSEM, BEMA, assessment alignment, physics education research

会議で使えるフレーズ集

「現行の評価は概念理解に偏っており、現場力の評価には補完が必要です」
「Three-Dimensional Learning（3DL）の観点で評価指標を再設計しましょう」
「短期コストはあるが、長期的には教育投資の回収性が高まります」
「既存データをそのまま使う際は、測っている内容の限界を明示します」
「研究と現場の共同で、採点可能な3DL評価を試作しましょう」

参考文献: J. T. Laverty and M. D. Caballero, “What are we assessing? An analysis of the most common concept inventories in physics,” arXiv preprint arXiv:1711.03191v1, 2017.

監修者

阪上雅昭（SAKAGAMI Masa-aki）
京都大学　人間・環境学研究科　名誉教授

PCも苦手だった私が

“AIに詳しい人“
として一目置かれる存在に！

論文研究

物理教育における標準化評価は何を測っているか

さらに深い洞察を得る

AIBR プレミアム

“AIに詳しい人”として
一目置かれる存在に！

【実践型】
生成AI活用キャンプ

3ヶ月後には、
あなたも生成AIマスター！

1.概要と位置づけ

2.先行研究との差別化ポイント

3.中核となる技術的要素

4.有効性の検証方法と成果

5.研究を巡る議論と課題

6.今後の調査・学習の方向性

検索に使える英語キーワード

会議で使えるフレーズ集

監修者

論文研究シリーズ

AI技術革新 - 人気記事

“AIに詳しい人“
として一目置かれる存在に！

あなたにオススメのカテゴリ

さらに深い洞察を得る

AIBR プレミアム

“AIに詳しい人”として一目置かれる存在に！

【実践型】
生成AI活用キャンプ

3ヶ月後には、あなたも生成AIマスター！

物理教育における標準化評価は何を測っているか

さらに深い洞察を得る

AIBR プレミアム

“AIに詳しい人”として一目置かれる存在に！

【実践型】 生成AI活用キャンプ

3ヶ月後には、あなたも生成AIマスター！

1.概要と位置づけ

2.先行研究との差別化ポイント

3.中核となる技術的要素

4.有効性の検証方法と成果

5.研究を巡る議論と課題

6.今後の調査・学習の方向性

検索に使える英語キーワード

会議で使えるフレーズ集

監修者

論文研究シリーズ

関連記事

関連タグ

この記事をシェア

AI技術革新 - 人気記事

“AIに詳しい人“として一目置かれる存在に！

あなたにオススメのカテゴリ

さらに深い洞察を得る

AIBR プレミアム

“AIに詳しい人”として一目置かれる存在に！

【実践型】 生成AI活用キャンプ

3ヶ月後には、あなたも生成AIマスター！

AI Benchmark Researchをもっと見る

“AIに詳しい人”として
一目置かれる存在に！

【実践型】
生成AI活用キャンプ

3ヶ月後には、
あなたも生成AIマスター！

“AIに詳しい人“
として一目置かれる存在に！

【実践型】
生成AI活用キャンプ