非ベクトルデータのためのオンライング関係自己組織化マップ(On-line relational SOM for dissimilarity data)

田中専務

拓海さん、最近うちの現場で、「ベクトルデータじゃないから機械学習が使えない」と部下から言われましてね。そもそもベクトルデータじゃないって何が困るんでしょうか。

AIメンター拓海

素晴らしい着眼点ですね!大丈夫、まずは簡単に分けると、普通の機械学習はデータを数値の列、つまりベクトルにして処理しますよね。けれど現実には順序情報や関係性、カテゴリだけがあるデータも多く、そういう時は距離や違いを直接扱う手法が必要になってきますよ。

田中専務

なるほど。たとえばうちの製品の類似度や顧客同士の関係性を使いたい場合ですね。で、そういうときに有名な手法があると聞きましたが、どんな仕組みですか。

AIメンター拓海

いい質問です。ここで登場するのがSelf-Organizing Map(SOM:自己組織化マップ)です。SOMはデータの似たもの同士を地図の上で近くに配置する手法です。通常はベクトルで動作しますが、今回のように「データ間の距離だけ」がある場合でも動く拡張が考えられているんですよ。

田中専務

それで今回の論文は、バッチ処理だけでなくオンラインで学習できるってことですね。これって要するに、学習を少しずつ現場で継続できるということ?

AIメンター拓海

その通りですよ。要点は三つです。第一にオンライン学習はデータを一件ずつ受け取りながら更新できるので、メモリ負荷を大きく下げられます。第二に逐次更新によりトポロジー(地図上の整列)を保ちやすい傾向があること。第三に非ベクトルデータ、つまり不均一な類似度情報にも対応できる点です。大丈夫、一緒に整理していけば使えますよ。

田中専務

投資対効果で言うと、現場で数千件ずつ継続的にデータが増える場合、バッチよりオンラインの方が運用コストが下がるのですか。

AIメンター拓海

良い視点ですね。基本的にオンラインは逐次処理なのでメモリや一時的な計算負荷が抑えられます。つまり初期投資で大規模なサーバーを用意せずに済む可能性が高いのです。また現場で随時更新できるため、モデルが古くなるリスクも下がるのです。

田中専務

ただ、精度や見栄えの良さはバッチの方が上になる場面もあると聞きます。現場の理解もしやすいと。そこはどう折り合いをつければよいですか。

AIメンター拓海

良い観点です。ここでも三点で整理します。第一に最終的な地図の可視化や解析はバッチで定期的に行うと見やすい結果を得やすい。第二にオンラインで運用しながら重要な節目でバッチ再学習を行うハイブリッド運用が現実的である。第三に現場説明用のダッシュボードを併用すれば、経営的理解は得やすくなりますよ。

田中専務

これって要するに、現場で継続的にデータを取りながらコストを抑えて大まかな地図を作り、定期的に精度の高いバッチで仕上げるということで合っていますか。

AIメンター拓海

その通りです。まとめると、オンライン学習は運用面の負荷を下げ、現場適応性を高め、関係性だけのデータにも対応できる。大丈夫、一緒にやれば必ずできますよ。

田中専務

分かりました。自分の言葉で言うと、我々は類似度や関係性の情報を使って、まずは現場で動く簡易マップを作り、必要な時に精度を高めるための本格再学習を行う。これで現場の負担を減らしながら実務に生かせるという理解で合っていますか。

AIBRプレミアム

関連する記事

AI Business Reviewをもっと見る

今すぐ購読し、続きを読んで、すべてのアーカイブにアクセスしましょう。

続きを読む