5 分で読了
1 views

SMILESを言語として扱う薬剤分類

(WHEN SMILES HAVE LANGUAGE: DRUG CLASSIFICATION USING TEXT CLASSIFICATION METHODS ON DRUG SMILES STRINGS)

さらに深い洞察を得る

AI戦略の専門知識を身につけ、競争優位性を構築しませんか?

AIBR プレミアム
年間たったの9,800円で
“AIに詳しい人”として
一目置かれる存在に!

プレミア会員になって、山ほどあるAI論文の中から効率よく大事な情報を手に入れ、まわりと圧倒的な差をつけませんか?

詳細を見る
【実践型】
生成AI活用キャンプ
【文部科学省認可】
満足度100%の生成AI講座
3ヶ月後には、
あなたも生成AIマスター!

「学ぶ」だけではなく「使える」ように。
経営者からも圧倒的な人気を誇るBBT大学の講座では、3ヶ月間質問し放題!誰1人置いていかずに寄り添います。

詳細を見る

田中専務

拓海先生、最近うちの若手が『SMILESを文章として扱えば機械学習で薬の分類ができます』って言い出して、正直何を言っているのか分からないのです。要するに、化学の難しい図を全部無視して文章だけで分かるということですか?

AIメンター拓海

素晴らしい着眼点ですね、田中専務!大丈夫、複雑に見える話も分解すればシンプルです。要点を先に3つにまとめますよ。1) SMILESというのは化学構造を文字列にしたものです。2) その文字列を文章だと見立てて、自然言語処理(NLP: Natural Language Processing—自然言語処理)と同じ手法を試すのです。3) 結果としてシンプルなモデルでも競争力のある分類が得られる、という実験結果です。大丈夫、一緒に見ていけますよ。

田中専務

SMILESって聞いたことはありますが、何かの略称でしたか。うちの現場で言えば図面をテキスト化しているようなものでしょうか。

AIメンター拓海

その比喩はとても良いですよ。SMILESはSimplified Molecular Input Line Entry System(SMILES—簡略分子入力行表記)の略で、化学構造を1行の文字列で表す規則です。図面を文字列に落とし込むイメージで、原子や結合が順に並ぶため、文の単語に相当するトークンを作れます。現場の図面データをCSVにして読み替えるような感覚で理解できますよ。

田中専務

なるほど。で、実際にどうやって分類するんですか?うちの若手は『単語を上位K個にして残りはUNKにする』とか言ってまして、何だか翻訳業者の話のようでした。

AIメンター拓海

その通りで、非常に簡潔に言うとトークン化して頻度の高いトップKのトークンだけ辞書に載せ、残りはUNK(unknown—未知トークン)にまとめます。その後、トークン列を使ってシンプルな多層パーセプトロン(MLP: Multilayer Perceptron—多層パーセプトロン)などのモデルに入力し、最終的に確率が最も高いクラスを選ぶ、という流れです。処理の見方は文章分類に限りなく近いのです。

田中専務

これって要するに、SMILESを普通の文章として扱うということ?化学の専門的な構造特徴を全部機械に学習させる必要はないと?

AIメンター拓海

そうです、要するにその発想で合っています。専門的な化学的特徴を精密に作るよりも、まずは『文字列としてのSMILES』に対して文章分類のやり方を適用してみると、驚くほど良い結果が出ることがあるのです。ポイントはシンプルさと計算コストの低さ、実装の容易さです。

田中専務

それは現場導入で助かります。とはいえ投資対効果の観点で、化学の専門家と相談するよりまず試作で効果が出るのなら短期的な価値は大きいですね。精度はどの程度期待できますか。

AIメンター拓海

実験では、SMILES文字列をそのまま文章として扱うだけで、非常に競争力のあるスコアが得られていると報告されています。もちろんトップクラスの専門モデルと比べると差があるケースもあるが、開発コストと運用コストを低く抑えつつ短期間で導入し、現場での有用性を早く検証できる点が強みです。要は『まず試して学ぶ』というアプローチが有効です。

田中専務

わかりました。ではまずは小さなデータで試して、効果が出そうなら化学の専門家とより深い表現を検討する、という段取りで。これなら投資も抑えられますね。自分の言葉で説明すると、『SMILESを文として扱って文章解析の方法でまずは分類してみる。うまくいけば次の投資を考える』という理解で合っていますか。

AIメンター拓海

その通りです、田中専務。素晴らしいまとめですね!短期で価値を出すこと、費用対効果を確認してから深化すること、その二段階を踏むのが合理的です。大丈夫、一緒に進めれば必ずできますよ。

論文研究シリーズ
前の記事
注意整列による知識蒸留
(Align-to-Distill: Trainable Attention Alignment for Knowledge Distillation in Neural Machine Translation)
次の記事
CCC: 色分類による自動着色
(Color Classified Colorization)
関連記事
ラベル専門化アンサンブルによる敵対的事例への耐性の向上
(Robustness to Adversarial Examples Through an Ensemble of Specialists)
反復的サイクル型スパース学習:それだけで十分か?
(Cyclic Sparse Training: Is it Enough?)
Splash:確率的アルゴリズムの並列化を簡潔にするユーザーフレンドリーなインターフェース
(Splash: User-friendly Programming Interface for Parallelizing Stochastic Algorithms)
機械学習アルゴリズムの多次元的能力診断
(Multi-Dimensional Ability Diagnosis for Machine Learning Algorithms)
形に依存しないLLMの忘却
(LLM Unlearning Should Be Form-Independent)
訓練されたリカレントニューラルネットワークにおける局所ダイナミクス
(Local Dynamics in Trained Recurrent Neural Networks)
この記事をシェア

有益な情報を同僚や仲間と共有しませんか?

AI技術革新 - 人気記事
ブラックホールと量子機械学習の対応
(Black hole/quantum machine learning correspondence)
生成AI検索における敏感なユーザークエリの分類と分析
(Taxonomy and Analysis of Sensitive User Queries in Generative AI Search System)
DiReDi:AIoTアプリケーションのための蒸留と逆蒸留
(DiReDi: Distillation and Reverse Distillation for AIoT Applications)

PCも苦手だった私が

“AIに詳しい人“
として一目置かれる存在に!
  • AIBRプレミアム
  • 実践型生成AI活用キャンプ
あなたにオススメのカテゴリ
論文研究
さらに深い洞察を得る

AI戦略の専門知識を身につけ、競争優位性を構築しませんか?

AIBR プレミアム
年間たったの9,800円で
“AIに詳しい人”として一目置かれる存在に!

プレミア会員になって、山ほどあるAI論文の中から効率よく大事な情報を手に入れ、まわりと圧倒的な差をつけませんか?

詳細を見る
【実践型】
生成AI活用キャンプ
【文部科学省認可】
満足度100%の生成AI講座
3ヶ月後には、あなたも生成AIマスター!

「学ぶ」だけではなく「使える」ように。
経営者からも圧倒的な人気を誇るBBT大学の講座では、3ヶ月間質問し放題!誰1人置いていかずに寄り添います。

詳細を見る

AI Benchmark Researchをもっと見る

今すぐ購読し、続きを読んで、すべてのアーカイブにアクセスしましょう。

続きを読む