多変量正規性の独立性を用いた検定(Testing multivariate normality by testing independence)

田中専務

拓海先生、最近部下から「データが正規分布か確認しろ」と言われまして、正直どう説明すればいいか困っています。普通に各列を検定すればいいんじゃないですか、とは言えないんですよ。

AIメンター拓海

素晴らしい着眼点ですね!それ、よくある誤解でして、各列を別々に検定しても「多変量」で正規かどうかは分からないんですよ。大丈夫、一緒に整理していきましょう。

田中専務

それって要するに、列ごとに普通に見ても全体の性質は見えないということですか?現場で使うときは実務的な判断が欲しいです。

AIメンター拓海

その通りです。要点を3つにまとめますよ。1つ、各変数の「周辺分布」が正規でも、全体(結合分布)は正規とは限らない。2つ、論文では正規性の別の特徴、すなわち「ある独立性の関係」を使って判定している。3つ、実務では高次元で効率がよい可能性があると示されていますよ。

田中専務

独立性を使う、ですか。投資対効果の観点から知りたいのですが、導入は難しいのですか。データを集めれば簡単に使えるんですか。

AIメンター拓海

安心してください。イメージで言えば、商品全体の売れ行きが本当に相互に関係しているかを見るのと同じで、ここでは合計と差に注目して独立かどうかを確認するんです。実装しやすく、既存の独立性検定(例:HSIC)を流用できるのが利点ですよ。

田中専務

HSIC?聞き慣れません。専門用語は難しくて困ります。現場で説明する短いフレーズはありますか。

AIメンター拓海

HSICは英語で Hilbert–Schmidt Independence Criterion(HSIC、ヒルベルト=シュミット独立性基準)と言いまして、簡単に言えば”二つのデータがどれだけ無関係かを数値で測る道具”です。難しく聞こえますが、図で言えば点の散らばりを見て関係性を評価するようなものです。

田中専務

なるほど。これって要するに、合計と差が互いに関係していないならデータは正規的だということですか?

AIメンター拓海

まさにその通りです!より正確には、Kac-Bernsteinという性質で、二つの同じ分布のベクトルについて合計と差が独立ならば、そのベクトルは正規分布であると結論付けられます。実務では合計と差を作って既存の独立性検定を当てれば良いのです。

田中専務

実務での注意点はありますか。特に高次元データやサンプル数が限られるときの扱いが気になります。

AIメンター拓海

良い質問ですね。要点を3つで整理します。1つ、次元が増えると従来の手法は力を失うことがあるが、この方法は高次元で有利になる場合がある。2つ、独立性検定自体にも設定が必要なので、カーネルやパラメータの選定が重要である。3つ、実務ではブートストラップ等で有意性を評価する運用が現実的です。

田中専務

よく分かりました。要は「合計と差を作って独立か調べる」――これなら現場にも説明できます。自分の言葉で言うと、データ全体として正規の性質があるかを合計と差の関係で確かめる、ですね。

AIBRプレミアム

関連する記事

AI Business Reviewをもっと見る

今すぐ購読し、続きを読んで、すべてのアーカイブにアクセスしましょう。

続きを読む