
拓海先生、最近部下から「可読性のAIで業務効率が上がる」と聞いたのですが、正直ピンと来ないのです。要するに文章が読みやすいかどうかを機械が判定してくれるという話ですか?

素晴らしい着眼点ですね!大丈夫、要点を先に言うと、「人間が読みやすい・難しいと判断する差」をAIに学習させ、業務文書やマニュアルの品質を定量化できるようにする技術ですよ。

それは便利そうですが、導入にお金がかかりませんか。うちの現場でどれほど効果が出るのか、投資対効果が見えないと踏み切れません。

投資対効果の懸念はもっともです。結論を3つに整理すると、1) 既存の文章データを活用できれば初期コストを抑えられる、2) 可読性評価は業務改善の優先順位付けやマニュアル改訂に直結する、3) 細かい調整は現場のフィードバックでできる、という点です。

なるほど。ところで、そのAIはどんな仕組みで文章の難しさを学ぶのですか。専門用語で難しければ噛み砕いて教えてください。

いい質問ですね。まず使う概念は「seq2seq(sequence-to-sequence)シーケンス・トゥ・シーケンス:入力文を別の形式に変換するモデル」です。これは車で言えばエンジンとギアの組み合わせで、入力を別の出力に変える仕組みです。

これって要するに、文章Aと文章Bのどちらが読みやすいかを比べさせるように学習させる、といった話ですか?

そうです!要するにペアで比較する「pairwise(ペアワイズ)比較」方式で学ばせるのです。ただしこの研究はさらに工夫して、seq2seqモデルに「テキストを入力してテキストで応答する」形、つまりprompt-based learning(プロンプト学習:提示文を使って学習する手法)で教えています。

提示文というのは、例えば「この二つの文のうちどちらが難しいですか?」と聞くようなものですか。現場の若手がよく言うプロンプトというやつですか。

まさにその通りです。提示文(プロンプト)を工夫するとモデルの答え方が大きく変わると彼らは指摘しており、本研究では複数のプロンプト候補を比較して最も有効なものを見つけています。

現場で使うなら、どんなメリットと限界があるのでしょうか。導入後に何を評価すれば良いですか。

実務目線では三点に着目すると良いです。1) 自動評価で特に改善が必要な文書の絞り込みができるか、2) 推奨する改訂案が現場で読みやすさを高めているか、3) クロスドメイン(別分野の文書)でも性能が落ちないか、です。研究では高いペアワイズ分類精度が報告されていますが、実務ではより実用的な出力(段階評価や長文対応)が課題です。

わかりました。要するに、うちではまずマニュアルや手順書の中で特に読みにくい部分を自動で見つけ、そこを直していくことで効率化を図る、と理解すれば良いのですね。やれそうに思えてきました。


