
拓海先生、最近部下から「ネット上の属性を調べてマーケティングに活かそう」と言われまして。オンラインのデータで年齢や性別の割合を出せば意思決定に使えるかと考えているのですが、簡単にできるものですか?

素晴らしい着眼点ですね!大丈夫、できることと注意が必要なことが両方ありますよ。要点は三つです。まず、サンプルの取り方が偏ると全体像を誤ること。次に、個別予測(分類器)が完璧でないため割合がずれること。最後に、そのずれを補正する仕組みが必要なことです。

分類器というのは要するに、あるアカウントが男性か女性かを当てるプログラムのことでしょうか?うちの情シスでも使えるものなんでしょうか。

そうです、分類器(classifier)は個々のアカウントの属性を予測する道具です。情シスレベルでも外部モデルや既製のツールで実装できますが、重要なのはその誤り率(error rate)を把握することです。誤りを知らずにそのまま集計すると結果が偏りますよ。

サンプルの取り方が偏るというのは、どの程度気にしなければなりませんか。例えば始めに見つけたアカウントから辿っていくやり方はダメなんでしょうか。

確かに、最初に見つけたアカウントから友だちやフォロワーを辿る方法は自然ですが、それだと人気のある人や特定のコミュニティに偏りやすいです。ここで使う考え方はレスポンドント・ドリブン・サンプリング(Respondent Driven Sampling)やランダムウォークといったネットワークを代表する取り方です。要は「偏りを小さくする取り方」を組み合わせる必要があるんです。

それで、論文の手法は何をするんですか。これって要するに、サンプルの取り方+分類器の補正を組み合わせるということですか?

その通りです!要点を三つにまとめると、第一にグラフを歩いてサンプルを集める(walk the graph)、第二に歩いたノードで分類器を学習する、第三に分類結果を後で補正する。これを組み合わせると、個別の予測ミスの影響を減らしてグループ全体の割合などをより正しく推定できるんです。

補正というのは具体的にどうするんですか。うちでやるとすればどこに投資すれば効果が出ますか。

補正は分類器の混同行列(confusion matrix)を使います。簡単に言えば、分類器が男性を女性と間違える確率などを事前に見積もり、その逆行列を使って全体の比率を補正します。投資対象としては、(1)代表的なサンプリングの仕組み、(2)分類器の検証用データ(正解ラベル付きデータ)、(3)データ品質の検査(ボット除外など)に配分するのが効果的です。

投資対効果を考えると、まず小さく試して伸ばしたいです。現場への導入で気をつけるポイントを教えてください。

現場導入で重要なのは三点です。小さなパイロットで代表性と分類精度を確認すること。結果を意思決定に使う前に補正を必ず行うこと。最後に、データの偏りやボットの影響を定期的にチェックすることです。大丈夫、一緒にやれば必ずできますよ。

分かりました。では現場には「小さな代表サンプルを取り、分類器の誤りを見積もってから補正する」と伝えます。つまり要するに、表面的な人数だけ見て判断するのではなく、測定方法と誤差を管理してから意思決定に使うということですね。

その通りですよ。素晴らしい着眼点ですね!では、次に具体的な論文の中身を順に見ていきましょう。用語は後で整理してお渡ししますから安心してくださいね。


