
拓海先生、最近部下から「データに外れ値があると予測が狂う」と言われましてね。うちみたいな製造現場でも関係ありますか。

素晴らしい着眼点ですね!外れ値は故障検知や品質管理で誤アラートを増やしたり、在庫予測を狂わせたりしますよ。だから外れ値を正しく見つけることは投資対効果に直結するんです。

なるほど。先日読むように渡された論文で「オニオンピーリング」という手法が出てきまして、名前だけは聞いたことがありますが、現場で使えるのか疑問でして。

いいですね、ではざっくり説明しますよ。要点は三つです。第一にオニオンピーリングはデータを地層のように剥がして外側(辺縁)を調べる方法です。第二に距離の測り方で結果が大きく変わることです。第三にこの論文ではマハラノビス距離が有効だったと報告していますよ。

これって要するに外側にあるデータを順番に剥がしていって、端っこにいるものを外れ値と見るということですか。

その理解で合っていますよ。もう少しだけ補足すると、丸ごと剥がすイメージではなく凸包という輪郭を順に取り除くんです。凸包は点の最も外側を結ぶゴム紐みたいなもので、それを何層も剥がすと内側と外側の深さを測れますよ。

へえ、でも距離の測り方で結果が変わるとおっしゃいましたね。どの距離が良いのですか、使い分けは難しそうです。

素晴らしい着眼点ですね!論文では標準的なユークリッド距離(Euclidean distance)とマハラノビス距離(Mahalanobis distance)を比較しています。簡単にいうとユークリッドは直線距離、マハラノビスはデータのばらつきを考慮する距離で、ばらつきが大きい方向を補正できますよ。

なるほど。現場の検査データで一方向だけばらつきが大きい場合、マハラノビス距離の方が適していると。

その通りですよ。要点は三つです。第一に外れ値は層状の構造で見つかるのでオニオンピーリングが効くこと、第二に距離の選択が精度を左右すること、第三に論文の評価ではマハラノビス距離が有利だったことですから、実務ではデータの方向性をまず確認すると良いです。

わかりました。まずは社内データの散らばり具合を見て、どの距離を使うか決める。これって要するに、現場のデータ特性を手当てしてから手法を選ぶということですね。

素晴らしいまとめですね!それで十分に実務的です。大丈夫、一緒にやれば必ずできますよ。まずは小さな検証用データで凸包を作って剥がすところから始められますよ。

わかりました。自分の言葉で言うと、「データの外側を何層か剥がして、端に残るものを外れ値と見なす手法で、距離の測り方を工夫すれば現場でも精度が上がる」ということですね。


