
拓海先生、お忙しいところ恐縮です。部下から『作曲者推定にAIを使える』と聞いて焦っているのですが、どんな方法が現実的でしょうか。

素晴らしい着眼点ですね!今回は『情報量を類似度として使う』新しい方法を紹介しますよ。結論を先に言うと、再現性が高く、学習データが増えても計算が追いやすい方法ですから、実務導入で使いやすいんですよ。

再現性が高い、ですか。その辺りがいちばん気になります。従来の方法とどう違うのですか。

よい質問です。従来はCDM(Compression-based Dissimilarity Measure、圧縮ベースの非類似度)という手法が使われてきましたが、CDMは圧縮ソフトに依存します。要するに、使う圧縮プログラムによって結果が変わる点が問題なのです。

圧縮ソフトによって違う、というのは現場では致命的ですね。で、この新しい方法はどうやって圧縮に依存しないのですか。

大丈夫、一緒に順を追って説明しますよ。核心は『情報量(information quantity)』を直接計算する点です。具体的には、ある作曲家の複数の楽譜を一つの長い文字列に連結し、その文字列内に現れる部分列の出現確率を使って未知の楽譜の情報量を算出します。圧縮ソフトを介さずに確率から計算するため、どの圧縮プログラムを使うかで結果が揺らぎませんよ。

なるほど。これって要するに〇〇ということ?

素晴らしい着眼点ですね!要するに、『作曲家ごとの大量のスコアを一つのデータにまとめ、その内部統計で未知のスコアがどれだけ説明できるかを見る』ということです。言い換えれば、その作曲家の“言い回し”がどれだけ未知のスコアに現れるかを確率で評価するわけです。

それなら部長が言う『短いフレーズの繰り返しが作曲家を示す』という話と合点がいきます。導入コストや計算量は現実的ですか。

大丈夫、要点は三つです。一つ、圧縮に依存しないので再現性が高い。二つ、作曲家ごとにまとめた大きな文字列を一度作れば、新しいスコアとの比較はその文字列を使った確率参照だけで済み、既知スコア全件と逐一比較するより速くなります。三つ、実装は文字列頻度の集計と確率計算が中心なので、特別なブラックボックスは不要です。

投資対効果で言うと、どの段階で導入判断すべきでしょうか。試験的にやるなら何を用意すればいいですか。

素晴らしい着眼点ですね!投資対効果の判断は、まず小さな試験でキーとなる点を検証するのが良いです。準備するのは、作曲家ごとの既知スコアのデジタル表現、未知スコア数十件、そして文字列頻度を計算する簡単なツールです。成功基準は識別精度と処理時間を現行方法と比較して改善することです。

分かりました。最後に、私が部長会で説明するときの短いまとめを教えてください。

大丈夫、一緒にやれば必ずできますよ。短くまとめると三点です。一、圧縮に依存しないため再現性が高い。二、作曲家ごとにまとめた確率統計を使うのでスケールしやすい。三、実装は文字列頻度の集計が中心で運用に適している。これだけ伝えれば概略は十分です。

ありがとうございます。では私の言葉で整理します。新しい方法は、作曲家ごとの全スコアを一つにまとめ、その内部でよく出るフレーズの確率を使って未知スコアとの類似度を測る。圧縮ソフトに依らないため再現性が高く、既存の全件比較より計算量が抑えられるということですね。


