
拓海先生、最近部署から「この論文を元にテストを見直そう」と言われたのですが、そもそも何を調べた論文なんでしょうか。私は統計の専門家ではなくて、要点だけ教えていただけますか。

素晴らしい着眼点ですね!この論文は、Cognitive Diagnosis Models(CDMs)(認知診断モデル)という、受験者の隠れた能力やスキルを当てる統計モデルの一種について、特に多肢選択のようなpolytomous responses(多項回答)を扱った場合に、パラメータを一意に決められるかどうか――つまりidentifiability(同定可能性)について、十分条件と必要条件を整理したものですよ。

それは我々の業務で言うと、試験や評価のスコアを元に能力を判断する仕組みの信頼性の話ということですね。で、同定可能性が無いと何が困るんですか。単純に精度が落ちるだけですか。

大丈夫、一緒に整理しましょう。端的に言えば、同定可能性が無いと推定したパラメータが複数の値で同じデータを説明してしまい、どの説明が正しいか分からなくなるんです。要するに、投資してテストやシステムを作っても、結果の解釈に自信が持てないリスクが残りますよ。

なるほど。で、この論文は「多項回答」で特に扱いが難しいと書いてありますが、それはどういう違いですか。単純に選択肢が増えると難しくなるという話ですか。

その通りですが、もう少しだけ。binary responses(二値応答、正誤のような)では各設問につきパラメータが少なく整理しやすいのです。しかしpolytomous responses(多項回答)では一つの設問に対して複数のパラメータが入り、項目間の依存関係も複雑になるため、どの条件で一意に決まるかの整理が難しくなるのです。

それは要するに、選択肢が増えるとパラメータが増えて“同じ説明”が複数できてしまう、ということですか。これって要するに同じ成績データから違う人の能力像が複数作れるということですか。

その認識で合っていますよ。良い着眼点です。では要点を三つでまとめますね。1) 多項回答はパラメータ数と依存構造が増える、2) そのため従来の同定可能性条件が不足する場合がある、3) 本論文はその不足を埋めるために、十分条件と必要条件を示している、ということです。

実務的には、我々が試験の問いを変えたり、選択肢を増やしたときに、何を気をつければ良いですか。投資対効果の視点で教えてください。

大丈夫です。要点だけ押さえれば判断できます。まず、Q-matrix(Q-matrix=項目属性行列)を設計して、各設問がどのスキルを測っているかを明確にすること。次に多項回答にするならば、項目ごとのパラメータ増を見越してサンプル数と設問のバランスを取ること。最後に論文の条件を満たすか簡単に検査し、満たさない場合は設問構造を見直すのが良いです。

分かりました。では最後に、私の言葉でまとめてよろしいですか。多項回答では項目ごとに増えるパラメータで能力の判定がぶれる可能性があるから、設問の属性(Q-matrix)とデータ量を計画的に増やして、論文で示された条件で確認する、という理解で合っていますか。

素晴らしいまとめですよ、田中専務!その通りです。大丈夫、一緒にやれば必ずできますよ。


