
拓海先生、最近部下から「データの表現を見直すべきだ」と言われまして。AIはデータが命というのは分かるんですが、具体的に何をどう変えればいいのか見当がつかないのです。要するに、データの見せ方でAIの成績が変わるという話ですか?

素晴らしい着眼点ですね!大丈夫、一緒に整理しましょう。今回の論文では、データの”表現”を変えることで深層ニューラルネットワーク、つまりDeep Neural Networks(DNNs:深層ニューラルネットワーク)が示す予測精度に違いが出るかを、エネルギーの時系列予測を例に調べていますよ。

エネルギーの時系列予測と聞くと、うちの設備稼働予測みたいなものを想像しますが、実務にはどれくらい応用できるのでしょうか。導入コストや現場の運用負荷は気になります。

大事な観点です。簡単に要点を三つで言うと、1) データの見せ方でDNNが学ぶ内容が変わること、2) ある表現は短期予測で有利だが長期では不利になること、3) そのため汎用的な最適解は存在しない可能性が高いこと、です。投資対効果は、まず試行錯誤して候補表現を少数選び、段階的に検証するのが現実的ですよ。

これって要するに、同じ原材料でも盛り付け方を変えると売れ行きが変わるように、データの見せ方次第でAIの判断が変わるということですか?

その比喩は的を射ていますよ。DNNは入力された情報の「見せ方」によってどの特徴を重視するかが変わります。だから実務で使うなら、目的(短期か長期か、解釈性が必要か計算資源が限られるか)を先に決めて、複数の表現で性能を比較するのが得策です。

運用面の不安もあります。現場のデータはばらつきが多く、前処理に工数がかかります。結局、どの表現を選べば手戻りが少ないですか。優先順位を教えてください。

素晴らしい視点ですね。優先順位は三点です。第一に目的の明確化、第二に実装コストが低い表現から検証(例えば単純な集計やウィンドウ化)、第三に成功した表現を運用で再現できるかの検証です。現場の手間を減らすために自動化できる前処理パイプラインを先に作るのも効果的です。

自動化は現実的ですね。ただ、結果がぶれるなら結局信頼されません。論文の結論は「どの表現が良いか一概には言えない」だったと聞いていますが、それでも現場で使える示唆はありますか?

はい、現場にすぐ使える示唆もあります。論文はエネルギー時系列で四つの代表的な表現を試し、二種類のDNNで三つの予測期間を検証しました。その結果、表現は予測期間によって有利不利が逆転するため、複数の表現を候補として評価する設計が必要だと示しています。これを実務で言えば、短期と長期で別の前処理・モデルを用意するハイブリッド運用が有効です。

なるほど。要するに、状況に応じて見せ方を変える柔軟な仕組みを作ることが肝心で、最初から一つのやり方に固執してはいけないということですね。分かりました、まずは短期用と長期用の二つを作って現場で比べてみます。
