
拓海先生、最近部下に「新薬候補の安全性はAIで早めに調べられます」と言われまして。特に心臓の問題、hERGという単語が出てきて怖いのですが、要点を教えていただけますか。

素晴らしい着眼点ですね!hERGは薬の副作用で命に関わる不整脈、具体的にはQT延長を引き起こすことがあり、早期に除外できれば開発コストを下げられるんです。今回はDrugBankの化合物をAIで一括スクリーニングした論文を噛み砕いて説明しますよ。

AIで何をもって「危ない」と判断するんですか。現場では『当たり』も『外れ』も出ますから、投資対効果をしっかりしたいのです。

良い質問ですよ。端的に言うとこの論文は二段構えです。まず「分類(classification)」で危険性があるか否かを予測し、次に「回帰(regression)」で阻害の強さを量的に推定する。これで経営判断に使えるリスクの粗さと詳細度を同時に出せるんです。

これって要するに、AIでハザード(危険)候補をまず拾って、次に優先順位をつけられるということ?それなら投資を絞れそうですけど。

その通りです!要点を三つにまとめますよ。第一に多数の既知データを学習して未知薬剤の危険性を予測できる。第二に分類と回帰を組み合わせて粗→詳細の判断が可能である。第三に複数の分子表現(シーケンス系と構造系)を融合して精度を高めている、という点です。大丈夫、一緒にやれば必ずできますよ。

データはどこから取ってくるのですか。うちの社内データで応用できるのでしょうか。

この研究ではGOSTAR、hERGCentral、PubChem、ChEMBLなどの公開データベースから既知の阻害情報を集めています。企業内データがあればそれを追加して再学習すれば精度はさらに上がるんです。ですから社内データ活用は理にかなっていますよ。

技術的には難しそうに聞こえます。拓海先生、どんなアルゴリズムが肝なんですか。

専門用語が多いですが、身近な例で説明しますね。彼らは「言葉の並び方」を学ぶTransformer(Transformer、略称なし、NLPベースの変換器)や「情報を圧縮して要点だけ取り出す」autoencoder(autoencoder、自己符号化器)で分子の文字列情報を抽出しています。加えて「立体構造の本質」を捉えるtopological Laplacian(topological Laplacian、位相ラプラシアン)やalgebraic graph(algebraic graph、代数的グラフ)で3次元情報を補強し、それらをGBDT(GBDT、Gradient Boosting Decision Tree、勾配ブースティング決定木)やDNN(DNN、Deep Neural Network、深層ニューラルネットワーク)で学習しているんです。

要するに文字情報と立体情報、両方の良いとこ取りをしていると。現場に導入するとしたら何を最初に用意すれば良いですか。

最初は三点セットを用意すると良いです。既存の阻害データ(公開データで可)、候補化合物のSMILES等の分子表記、可能なら低コストで得られる3次元構造予測の結果。まずは小規模でモデルを再現し、得られた「危険候補」だけ実験で確かめるワークフローを作りましょう。大丈夫、段階的に投資できますよ。

よくわかりました。では最後に私の言葉で確認させてください。要するに、AIでまず危ない薬を拾い上げて、次に阻害の度合いで優先順位をつけ、候補だけ実験に回すことでコストを節約できるということで間違いないですか。

その通りですよ、田中専務。まさに開発効率と安全性を両立する現実的なアプローチです。現場導入の際は私が伴走しますから安心してくださいね。できないことはない、まだ知らないだけです。大丈夫、一緒にやれば必ずできますよ。

わかりました。私の言葉でまとめますと、AIでまずハザード候補を洗い出し、その中で阻害強度の高いものを優先検査することで、安全性確認にかかる時間と費用を抑えられる、ということですね。ありがとうございました。
1.概要と位置づけ
本論文は、DrugBankデータベースに収録された化合物群を対象に、hERG(human ether-a-go-go-related gene、略称 hERG、ヒトのhERGカリウムチャネル)阻害の有無と阻害強度をAIで網羅的に予測し、医薬品の早期安全性評価に資するワークフローを提示している。hERG阻害は心電図上のQT間隔延長を引き起こし、致命的な不整脈につながるため、薬剤開発における主要な安全性リスクである。この研究は、公開データベースに蓄積された既知の阻害情報を学習させ、未知の化合物に対して分類(阻害する/しない)と回帰(阻害強度推定)を組み合わせて評価する点で実践的価値が高い。特に、分子の文字列情報と3次元構造の双方を捉える複合的な表現学習を導入することで、従来手法を上回る予測性能を示した点が本研究の最大の貢献である。本手法は製薬企業の初期スクリーニングや安全性ナレッジの構築に直接適用可能で、経営判断のためのリスク整理に資する。
2.先行研究との差別化ポイント
従来研究は多くの場合、分子表現を一種類に限定して機械学習を行ってきた。文字列ベースの手法は配列情報に強いが立体化学を見落とし、3次元ベースの手法は空間情報に強いがシーケンス特有の微妙なパターンを捉えにくいというトレードオフが存在した。本研究はTransformer(Transformer、NLPベースの変換器)やautoencoder(autoencoder、自己符号化器)によるシーケンス系埋め込みと、topological Laplacian(topological Laplacian、位相ラプラシアン)やalgebraic graph(algebraic graph、代数的グラフ)による3次元系埋め込みを同時に利用し、それぞれの長所を相補的に結びつけることで差別化を図っている。さらに、学習アルゴリズムとしてGBDT(GBDT、Gradient Boosting Decision Tree、勾配ブースティング決定木)とDNN(DNN、Deep Neural Network、深層ニューラルネットワーク)を統合し、分類と回帰を両輪で運用する点で実運用に即した設計になっている。結果として、単一手法に依存した場合よりも高い再現性と精度が得られ、既知データからの一般化性能が向上した。
3.中核となる技術的要素
本研究の技術核は、異なる表現(representation)を整合的に扱う埋め込み(embedding)戦略である。第一に、TransformerやautoencoderがSMILES等の分子文字列から配列的特徴を抽出し、化学サブストラクチャや官能基の並びに起因するシグナルを捉える。第二に、位相ラプラシアン(topological Laplacian)や代数的グラフ(algebraic graph)が3次元的な分子形状や結合関係の本質を数学的に表現し、立体的相互作用の手がかりを提供する。第三に、これら複数の埋め込みを組み合わせ、GBDTやDNNで学習することで、分類と回帰の両タスクに対して堅牢なモデルを構築している。実務的には、学習時に各データソースのバイアスを管理し、外部検証セットでの性能確認を厳密に行うことが成功の鍵である。技術的には新しい手法の組み合わせが目立つが、本質は多面的な情報を如何に統合して安定的に予測に寄与させるかである。
4.有効性の検証方法と成果
著者側は公開データベースから収集した既知のhERG阻害データを用いて学習と検証を行い、分類モデルによりDrugBankの化合物群から227件を阻害候補として抽出した。内訳は既承認薬が92件、治験段階等の探索フェーズ薬が135件であり、その中には過去に安全性問題で撤回された薬剤も含まれていた。分類で候補を絞った後、回帰モデルで阻害の強さを定量化し、実験的に優先的に検証すべき化合物群を提示した点が実務的な強みである。性能比較では従来手法を上回る予測力を示し、特に偽陰性(危険を見逃す誤り)の低減に寄与している点が報告された。ただし、AI予測はあくまで優先付けの補助であり、最終的にはin vitroやin vivoでの実測検証が不可欠である。
5.研究を巡る議論と課題
本研究には有望な成果が示されている一方で、いくつかの議論点と課題が残る。第一に、学習データの偏りやラベル品質のばらつきがモデルの一般化に影響を与える可能性があること。第二に、3次元情報の取得精度や計算コストが大規模スクリーニング運用時の現実的なボトルネックになり得ること。第三に、AIが示す「なぜ危険と判断したか」を解釈可能にする手法が必要で、経営判断や規制対応の観点から説明可能性が重要になる点である。これらの課題に対処するためには、企業内データの整備、外部の標準データとの整合、実験とAIの密なフィードバックループの構築が求められる。総じて、技術的には成熟しているが運用面での準備が成果の鍵を握る。
6.今後の調査・学習の方向性
今後は三つの実務的方向性が考えられる。第一に、社内実験データを用いたモデルの再学習と継続的な性能監視により、現場特有の化合物群への適合性を高めること。第二に、計算コストと精度のトレードオフを改善するための軽量化戦略やスケーラブルなワークフローの構築である。第三に、AIの予測を意思決定に組み込むための説明可能性(explainability)と規制対応のためのドキュメンテーション整備である。具体的な学習課題としては、低データ領域での転移学習やアンサンブル学習の導入、ならびに3次元構造予測の精度向上が挙げられる。経営判断としては、段階的投資でまずPOC(概念実証)を行い、モデルの現場有用性を確認してから本格導入する方針が現実的である。
会議で使えるフレーズ集
「このAIはまず危険候補を抽出し、次に阻害の強度で優先順位をつける役割を果たします。」
「社内データを組み合わせることでモデルの精度はさらに向上しますから、初期投資は段階的で問題ありません。」
「AIの結果は最終決定ではなく、実験優先順位付けのための補助情報と位置づけるべきです。」
Virtual screening of DrugBank database for hERG blockers using topological Laplacian-assisted AI models
H. Feng and G. Wei, “Virtual screening of DrugBank database for hERG blockers using topological Laplacian-assisted AI models,” arXiv preprint arXiv:2211.00861v1, 2022.


