
拓海先生、社内で「人から人へと広がる影響(ソーシャルインフルエンス)をデータで見つけられるらしい」と言われまして、正直ピンと来ないのです。うちの現場で使えるものなんでしょうか。

素晴らしい着眼点ですね!大丈夫、難しく聞こえますが要点は三つです。まず「誰が次に行動するか」を予測するために機械に順番付け(ランキング)を学ばせること、次にそれにネットワーク情報を加えて性能が上がるかを比べること、最後に結果が改善すれば社会的影響の痕跡があると判断できる、ですよ。

それは「次に誰が製品紹介のメールを開くか」とか「次にどの営業先が反応するか」を機械に当てさせるということですか。なんだかマーケティングで聞く話に似ていますね。

その通りです。身近な例で言えば、既に行動している顧客の情報や、その顧客同士のつながりを使って「次に反応する可能性の高い人」を上位に並べるのがランキングの仕事です。ここで重要なのは、ネットワーク情報を入れたモデルが入れないモデルより予測が良くなるかを比較することですよ。

でも、うちの社員は似た者同士で仲が良いから、反応が似るのは当然ではないですか?それをどうやって影響と区別するんですか。

素晴らしい着眼点ですね!それはホモフィリー(homophily、類似性に基づく結びつき)という混同因子です。論文では個々のノードの性質や履歴を特徴量としてモデルに入れることで、その影響をある程度取り除く工夫をしています。要は「似ているから同じ動きをする」説明を先に与えた上で、ネットワーク情報がまだ説明力を上げるかを調べるのです。

これって要するに、最初に個人の属性と過去の行動で予測して、それでも改善するなら「人から人への影響がある」と判断する、ということですか?

はい、その理解で合っていますよ。ポイントは三つです。1) 予測問題に帰着して扱うと実務で使えるデータ駆動の方法になる、2) 個人の特徴を含めてホモフィリーの影響を緩和できる、3) それでもネットワーク情報が有益なら社会的影響の存在を示唆できる、ですよ。大丈夫、一緒にやれば必ずできますよ。

なるほど。実際に試す場合、データが欠けていることが多いのですが、それでも使えますか。例えば全員のつながりがわかっているわけではないのです。

いい質問です。データ欠損は難しい問題ですが、論文の方法は比較的頑健です。完全な因果証明は難しいが、現場で使える「影響の有無を示唆する証拠」として機能します。投資対効果の観点では、小さく試して有益性が見えたら段階的に広げるのが現実的に効くんです。

よし、要点は分かりました。要するに「個人の特徴で説明してもそれ以上にネットワークが効くなら影響があると示唆できる」。これなら会議で言えそうです。ありがとうございました。


