
拓海先生、最近うちの現場で「動画解析」にAIを使えないかと。ですが、画像と動画で何がそんなに違うのか、正直ピンと来ないのです。

素晴らしい着眼点ですね!動画は時間軸という次元が加わり、処理量が飛躍的に増えますよ。大丈夫、一緒に整理していけばできますよ。

時間軸が増えると何が困るんですか?メモリが増えるとか、処理が遅くなるという話は部下も言ってますが。

端的に言うとその通りです。画像向けのConvolutional Neural Networks (CNNs)(畳み込みニューラルネットワーク)は主に空間情報を扱いますが、動画では3D Convolutional Neural Networks (3D CNNs)(3次元畳み込みニューラルネットワーク)として時間方向の情報も同時に扱うため、計算量とメモリ要求が大きくなるんですよ。

それをハードでどうにかする、という話だと聞きました。要するに専用の回路を作ればいいということですか?

その方向性は正しいです。ただ重要なのは『柔軟性』です。動画モデルはレイヤーごとに最適な処理形態が変わるので、一つの固定設計だけでは投資対効果が下がるんです。

これって要するに、作業に合わせて機械の“設定”を変えられるようにしておくのが肝心、ということですか?

まさにその通りですよ。要点を三つで言うと、1) 動画は時間次元でコストが増える、2) レイヤーごとに最適化パラメータが違う、3) ソフト側で最適設定を見つけてハードに反映することが重要、です。

投資対効果の面で心配なのは、柔軟な回路は高くつかないかという点です。現場の設備投資の判断に直結します。

ご懸念は的確です。ここでも三点で整理します。1) 柔軟性のコストは限定的に設計できる、2) ソフトと併せて最適化することでエネルギー効率が大幅に改善する、3) 長期的には稼働率の向上で回収可能になる、です。

具体的にはどんな“柔軟性”があればいいんでしょうか。現場のオペレーションに近い例で教えてください。

現場の例で言えば、同じ工場で複数の製品を生産する場合に機械を段取り替えするのと似ています。具体的にはタイルサイズ(データの分割単位)、計算順序、並列度などをレイヤーごとに変えられることが重要なんです。

なるほど。最後に一つだけ確認したいのですが、導入判断の際に経営者として見るべき指標を教えてください。

要点は三つです。1) 性能当たりの消費電力(performance per watt)、2) レイヤーやモデルの多様性に対する柔軟性、3) ソフトウェアで設定を最適化できるエコシステムがあるか、です。これらが揃っていれば投資対効果は見込みやすいですよ。

分かりました。わたしの言葉で整理すると、動画解析に向けては「可変設定で効率化する専用機」と「設定を探すソフト」の両方が必要で、導入可否は消費電力効率と柔軟性、ソフトの成熟度を見る、ということですね。


