3.中核となる技術的要素
中核技術は五つの流れで構成される。第一に”onset detection(オンセット検出)”で音を区切る処理がある。これは音の始まりを検出して意味のある単位に分割する工程であり、現場音のイベント検出に相当する。第二に各区間の音色表現として”Mel-frequency cepstral coefficients(MFCC、メル周波数ケプストラム係数)”を用いる。MFCCは人間の聴覚特性を取り入れた特徴で、音色の違いを数値で表現する働きをする。
第三に音色の離散化は”incremental clustering(逐次クラスタリング)”で行う。ここが本研究の肝であり、クラスタ数を固定せずデータの出現に応じてクラスタを増やしたり統合したりする。これにより新しい音源が現れても動的にカテゴリを生成できる。第四に得られた記号列から統計的規則性を抽出するために”hierarchical N-grams(階層的N-グラム)”と概念的なボルツマンマシンを用いる。
第五に予測段階では、これらの階層的な統計情報から次の記号を確率的に推定して出力する。ポイントはクラスタの変化に応じて統計カウントを動的に更新する点であり、これがなければクラスタ合併や分割時にモデルが壊れる欠点が発生する。実装面では逐次処理を行い、データが来たその場で学習と更新を行う設計である。
技術的に重要なのは計算コストの管理である。逐次クラスタリングと階層的N-gramはメモリと計算を段階的に増やすため、軽量化と閾値設定で現場機器でも動くように工夫されている。運用では初期に小さな閾値で開始し、必要に応じて緩める運用が現実的である。


