
拓海先生、最近うちの若手が『学習の時間よりもデータ準備の方が遅い』と言っておりまして、正直ピンと来ないのですが、本当にそんなに重要なのですか。

素晴らしい着眼点ですね!結論を先に言うと、研修や研究で注目される『モデル学習』より、実務では『データ前処理(Data Preprocessing)』がボトルネックになることが多いんですよ。大丈夫、一緒に要点を3つで整理できますよ。

要点3つ、ですか。経営的には投資対効果(ROI)が気になります。最初の1つ目は何でしょうか。

一つ目は『データ供給の遅延は高価なGPU資源の遊休につながる』という点です。簡単に言えば、高性能な機械を買っても、データを上手に渡せないとその機械は手待ちになりますよ、という話です。

なるほど。2つ目は何でしょうか。これって要するに、データを用意する流れが整っていないと投資が無駄になるということですか?

正解ですよ。二つ目は『前処理方法によって性能やコストが大きく変わる』という点です。論文では生データ(raw data)を都度読み込む方法と、レコードファイル(record files)に変換して読み込む方法の差を詳しく調べています。

レコードファイル化ですか。うちの工場データで言うと、CSVをそのまま読むか、SQLに詰め替えるかみたいな違いでしょうか。

まさにその比喩で理解できますよ。三つ目は『ソフトウェア・ハードウェア両面での最適化が効果的』であることです。論文はNVIDIA DALIという専用ライブラリを使っても前処理がボトルネックになる実測を出しています。

NVIDIA DALIは聞いたことがありますが、我々のような中小製造業でも対策できるのでしょうか。現場での導入が心配です。

大丈夫、できることから始めれば良いんです。まずは現状を計測して、データ読み込みの遅さがどこで生じているかを特定する。次に、無駄な変換を減らす、必要なら中間フォーマットに変換する。それだけでGPUの稼働率が大きく改善できますよ。

要点を3つにまとめていただけますか。投資判断で説明しやすくしたいのです。

承知しました。1)データ前処理の遅延はGPUの遊休を生む。2)生データ読み込みとレコード化の選択で性能とコストが変わる。3)ソフトウェアとインスタンス(クラウド機)の組み合わせで費用対効果を改善できる、です。これで会議資料が作れますよ。

ありがとうございます。なるほど、要するに『データの渡し方を改善しないと機械(GPU)を買っても回らない』ということですね。これをまず現場で検証してみます。


