
拓海先生、最近うちの若手が「連想分類器を導入すればいい」と騒いでおりまして、正直どこから手を付ければいいかわかりません。要するに何が変わるんですか。

素晴らしい着眼点ですね!この論文は、大量データで扱いにくい『カテゴリデータの多さ』を前提に、連想分類器を分散環境で実用化する道筋を示していますよ。

そこは具体的に言うと、現場のデータベースに入りきらないような大量の製造データでも使えるということですか。コスト対効果はどうなんでしょう。

素晴らしい着眼点ですね!要点を3つで言うと、1) 計算を分散して実行するので処理時間が短縮できる、2) 抽出時に不要なルールを減らしてメモリ負荷を下げる、3) 最終的に複数モデルをまとめて精度を上げる、という設計です。

その「不要なルールを減らす」というのが肝ですね。現場ではルールが爆発して使い物にならないことが多いのですが、具体的にはどうやって抑えるのですか。

素晴らしい着眼点ですね!この論文ではCAP-growthという新しい抽出アルゴリズムを使い、ルールを抽出する段階で既に重要でないものを取り除く方式を採っています。言わば原材料の段階で不良を除く流れです。

つまり、例えば何百万件の受注履歴から役に立つルールだけ先に絞る、と。これって要するに処理段階でムダを捨てるということ?

その通りですよ!良いまとめですね。加えて、論文はApache Spark(Apache Spark、分散データ処理基盤)を前提に、メモリを多用して高速化する点を重要視しています。現場での応答性が改善されるのです。

実運用を考えると、うちのIT部はSparkを使ったことがありません。導入コストや運用負荷はどの程度を見ればいいですか。

素晴らしい着眼点ですね!現実的な視点で言えば、まずは小さいクラスターでPoCを回し、メモリ要件と処理時間を計測することです。そして学習はバッチ処理が主なので夜間バッチ化で負荷を平準化できますよ。

なるほど。最初は小さく始めて効果が見えたら横展開する、と。最後にもう一つだけ、期待できる効果を端的に教えてください。

素晴らしい着眼点ですね!期待効果は3点です。1) 高次元カテゴリデータから意味のある因果的ヒントを取り出せること、2) 分散処理で現場の応答時間とスループットが改善すること、3) ルールベースゆえに可読性が高く、現場への説明が容易になることです。大丈夫、一緒にやれば必ずできますよ。

よくわかりました。要するに、CAP-growthで不要ルールを初期段階で削ぎ落とし、Spark上で分散学習して最後に多数決のようにモデルをまとめる――それで実運用のボトルネックを減らせる、ということですね。ありがとうございます、これなら部内で説明できます。


