
拓海さん、うちの若手が『AIで創薬データを活用すれば早く候補が見つかる』と言うのですが、正直ピンと来ません。今回の論文は何を公開していて、うちが参考にすべき点は何でしょうか。

素晴らしい着眼点ですね!大丈夫です、要点は3つで説明できますよ。1つ目は大量の化合物データを整理した点、2つ目は高性能計算(HPC)で分子特性を前処理した点、3つ目はそのデータで機械学習(ML)モデルを育ててスクリーニングに使えるようにした点です。大きな流れを押さえれば経営判断はできますよ。

なるほど。しかし大量と言われても具体的にどのくらいで、どういう形式なのかがわからないと社内に導入するイメージが湧きません。数やデータ形式は経営判断に直結します。

良い視点です。今回の公開は約42億(4.2 billion)もの分子情報で、SMILESというテキスト形式での構造表現や、分子の指紋(fingerprints)、2D画像、2D/3D記述子といった前処理済みデータを含みます。つまり生の原石を加工してすぐ使える形にした巨大な倉庫を公開した、と考えればよいです。

倉庫の例えはわかりやすいです。で、その倉庫を使うのに我々が準備することは何になりますか。クラウドが怖いと以前言ったら若手から失笑を買いましたが、現場に負担がかかるなら慎重に判断しないといけません。

安心してください。導入の観点も3点で整理できます。まず、データの受け取りは小さなサンプルで始められること。次に、HPCレベルの計算は外部に任せられるため初期投資を抑えられること。最後に、既存のBIやRPAとつなげることで現場の作業を変えずに価値を得られることです。順を追えば必ず進められますよ。

これって要するに、データを集めて前処理して学習用に整備してあるから、うちのような中小でも外部を活用して試験的に使ってみる価値がある、ということですか。

まさにその通りです!素晴らしい着眼点ですね。追加で、公開データは今後、分子の立体構造(コンフォーマー)やドッキングシミュレーション、さらに学習済みモデルそのものも順次公開される予定ですから、段階的に高度な評価に進められますよ。

投資対効果の面で説得するなら、最初にどの指標を見るべきでしょうか。時間とコストがかかるのは避けたいのです。

投資対効果は必ず経営判断に必要ですね。最初に見るべきは期待される候補化合物の絞り込み率と、実験検証に必要なサンプル数の削減幅です。これによって実験コストと期間がどれだけ下がるかを試算できます。小さく始めて効果が見えれば拡張する流れで良いんですよ。

わかりました。ではまずは部内で小さなPoCを行い、候補の絞り込み効果と試算を示して説得材料にします。自分の言葉で言うと、この論文は「大量の分子データを使いやすく前処理して公開し、外部計算資源と組み合わせれば初期投資を抑えつつ候補探索を早められる」ということですね。


