
拓海先生、部下から「AIには大量データが必要だ」と言われて不安です。データを大量に集めればうまくいくという理解で良いのですか。

素晴らしい着眼点ですね!必ずしも大量=最良ではありませんよ。今回の論文は、ウェブから集めた超大規模コーパスと、専門的に整備された小規模コーパスを比較して、どちらが語彙埋め込みに有利かを調べたものです。

それで結論は?要するに、大きければ良いか、小さくても良いか、どっちなのですか。

素晴らしい着眼点ですね!要点を三つにまとめます。第一に、きちんと編纂された小規模コーパスは語義の類似性(semantic similarity)評価で強い。第二に、超大規模なウェブコーパスは関連性(relatedness)や話題的結びつきに強みを示す。第三に、学習の改善はある程度のデータ量で飽和する点がある、ということです。

ちょっと待ってください。語義の類似性と関連性って、どう違うのですか。うちの現場にどう当てはめればいいかイメージが湧きません。

良い質問です。簡単に言うと、語義の類似性(semantic similarity)は『同じ意味に近いか』を測る性質で、例えば「医師」と「ドクター」は高いです。一方、関連性(relatedness)は話題や連想で結びつくかで、「医師」と「病院」は関連性が高いが語義が同じとは言えません。貴社で言えば、自社製品の類似製品検出に強いのが語義の類似性、マーケティングやカテゴリ化で役立つのが関連性です。

なるほど。で、データを集めるコストを考えると、どちらにどれだけ投資すべきか判断したいのですが、論文は投資対効果について何か示していますか。

ポイントは二つです。まず、精度改善が頭打ちになる点が実務上重要であること。論文は語義類似性の改善は最初の約100百万語(100M)でほぼ飽和すると示しています。次に、本当に必要なのは目的に合ったコーパスの選定で、無差別に巨大なデータを集めるより、場面に合う良質なデータへ投資するほうが効率的であるという点です。

これって要するに、目的に合わせて『少量できちんと作る』か『大量で幅を取る』かを選べということですか。

その通りです!目的(語義の正確さか、関連性や話題の拾い上げか)を明確にした上でコーパス戦略を決めるべきです。加えて、評価データ自体に誤りがあると正しい判断ができないため、論文では評価セットの修正も行っています。品質管理を怠ると、いくらデータを積んでも誤った方向に進んでしまいますよ。

分かりました。整理すると、自分の言葉で言うと「用途を決めて、まずは適切で品質の良いデータを100M程度から試して、必要なら大規模データで幅を補う」ということですね。


