多属性意思決定を直感主義ファジィ数と強化学習で組み合わせる方法(Method for making multi-attribute decisions in wargames by combining intuitionistic fuzzy numbers with reinforcement learning)

田中専務

拓海先生、お時間よろしいでしょうか。部下から「AIで指揮判断を自動化できる」と言われまして、ある論文を見せられたのですが素人には何が新しいのか掴めません。要するに何ができるようになるのでしょうか。

AIメンター拓海

素晴らしい着眼点ですね!大丈夫、一緒に整理しましょう。まずは結論だけ端的に。論文は多属性意思決定(multi-attribute decision-making (MADM) 多属性意思決定)と強化学習(Reinforcement Learning (RL) 強化学習)を組み合わせて、戦術的な判断を速く、より勝ちに結びつける手法を示しています。ポイントを簡潔に3つにまとめると、1)評価指標を整理して、2)相手の脅威を数値化し、3)その数値を報酬関数に使ってRLを効率化していますよ。

田中専務

要点を3つにまとめると分かりやすいですね。ですが、私には難しい言葉が多く、例えば「直感主義ファジィ数(intuitionistic fuzzy number (IFN) 直感主義ファジィ数)」というのが出てきて混乱しています。これって要するに曖昧さをどう数にするかということですか。

AIメンター拓海

素晴らしい着眼点ですね!その理解で合っています。直感主義ファジィ数(IFN)は、ある事象の「起こりやすさ」と「起こりにくさ」を同時に扱える数の表現です。ビジネスで言えば、ある取引先の信用を“A社がやや不確かだ”という感覚を、ある程度きちんと数値で扱えるようにする装置と考えてください。これにより評価項目の重みづけが現場の曖昧さを反映して正確になりますよ。

田中専務

なるほど。実務で言うと評価基準が多いと、どれを重視するかばらつきが出る。そこでIFNで重みを計算して揃える、という理解でいいですか。そうすると現場のオペレーションにはどのぐらいの手間がかかるのですか。

AIメンター拓海

いい質問です。導入負荷は段階的です。まずは現場の評価指標を列挙してデータ化する工程が必要です。次にIFNで重みを算出する計算を一度実施するだけで、その後はその重みを使って継続的に脅威度を算出できます。最後に、その脅威度を強化学習の「報酬(reward)」に繋げてエージェントを学習させます。要点は3つ、データ化、重み算出、報酬設計です。

田中専務

投資対効果の点が一番知りたいです。強化学習はよく学習が遅いとか、勝てない相手がいると聞きますが、この手法はそれを改善するのでしょうか。

AIメンター拓海

素晴らしい着眼点ですね!まさに論文が狙った点です。強化学習(RL)は報酬が希薄だと学習が遅い、特定の戦略に弱いという問題がある。そこでIFN由来の多属性評価を使い、報酬を細かく、意味のある信号に変換することで学習が速く収束しやすくなります。論文の実験では、従来の純粋なRLよりも勝率が高まり、学習の収束も改善したと報告しています。

田中専務

これって要するに、現場の曖昧な判断基準を数値に落としてから学習させることで、AIが早く現場で使える判断を覚えるということですか。ということは、我々の現場データをきちんと整理すれば投資回収も見込みやすいと。

AIメンター拓海

その通りです。大丈夫、一緒にやれば必ずできますよ。最後に要点を3つでまとめます。1)IFNで曖昧さを数にする、2)多属性で脅威度を計算する、3)その脅威度を報酬にしてRL(特にActor-Critic (AC) フレームワーク)を学習させる。これでAIが短期間で有効な戦術判断を身に付けやすくなるのです。

田中専務

わかりました。要は、我々がやることは評価指標を整理してデータに落とし込むことと、専門家の判断を数値化するための協力ですね。自分の言葉で言うと、現場基準をきちんと数にしてやれば、AIの学習が早くなって実務で使えるようになる、ということです。

AIBRプレミアム

関連する記事

AI Business Reviewをもっと見る

今すぐ購読し、続きを読んで、すべてのアーカイブにアクセスしましょう。

続きを読む