
拓海先生、最近社員から「音声や音楽のAIで遊べます」なんて話を聞いているんですが、正直何ができるのかよく分かりません。弊社の現場で役に立つイメージを教えていただけますか。

素晴らしい着眼点ですね!音楽や音声のAI研究の中には、音の構造を分けて理解できるようにする研究があり、これを使うと編集や検索、生成が簡単になりますよ。大丈夫、一緒に分かりやすく整理していきますよ。

音の構造を分けるって、具体的には何をどう分けるということなのですか。うちで言えば機械の稼働音と異常音を別に扱えるようになる、という理解でいいですか。

素晴らしい着眼点ですね!その通りです。今回の研究は音楽の中で「リズム」と「ハーモニー」を別々の要素として学習させる手法で、同じ考え方を工場の騒音や機械音にも応用できるんです。要点は三つで説明しますね。まず一つ目、音を時間軸と周波数軸の両方から捉えて分解する考え方です。二つ目、教師ラベル無しで学べる自己教師あり学習の活用です。三つ目、生成品質を保つために敵対的学習を使っている点です。

なるほど、自己教師あり学習という言葉が出ましたが、それは要するに大量のラベル付きデータがなくても学べるということですか。現場でラベル作るのは大変なので助かります。

素晴らしい着眼点ですね!その理解で正しいですよ。自己教師あり学習(self-supervised learning)とは、人間が付けた正解ラベルを使わずにデータ自身の変換や関係から学ぶ方法で、工場現場で大量に取れる音データを活用するのに向いているんです。

具体的にどうやってリズムとハーモニーを分けているのですか。例えばピッチを変えたらハーモニーにだけ影響するように、という工夫があるんでしょうか。

素晴らしい着眼点ですね!まさにその通りで、論文では音のピッチを意図的に変える「ピッチシフト」を使い、ピッチに依存する情報とそうでない情報を分離するようモデルを訓練しています。具体的には、variational autoencoder (VAE) 変分オートエンコーダを使い、二つの潜在変数にそれぞれハーモニー情報とリズム情報を割り当てています。

これって要するに、ピッチを変えても変わらない部分がリズム、ピッチで変わる部分がハーモニーとして学べるようにしているということ?

素晴らしい着眼点ですね!まさに要約するとその通りですよ。ピッチシフトという簡単な操作を教師代わりに使い、モデルに「ピッチを変えても残る情報=リズム」「ピッチで変化する情報=ハーモニー」を学習させるのが肝要です。加えて、生成側にgenerative adversarial network (GAN) 生成対向ネットワークを併用し、出力の品質を高めています。

投資対効果で見た場合、現場に何をもたらすのかイメージしたいです。利点を三つに絞って教えていただけますか。

大丈夫、一緒に考えましょう。利点は三点です。第一に、異常検知などでノイズや背景音を切り分けやすくなり誤検知が減る点。第二に、編集やシミュレーションで特定の要素だけを変えられるため評価工数が減る点。第三に、ラベル無しデータを活用できるため導入コストが抑えられる点です。

分かりました。では最後に私の言葉でまとめます。要するに、この手法はラベルが無くても音を時間要素と周波数要素に分けて学習できるので、現場の音データを使った異常検知や編集が現実的に低コストでできるようになる、ということで間違いないでしょうか。

素晴らしい着眼点ですね!その通りです。短期的なPoCから始めて、現場の音を集めてモデルを育てれば、必ず効果が見えてきますよ。一緒にやれば必ずできますよ。


