2025.08.13

論文研究

4 分で読了

0 views

scDataset: Scalable Data Loading for Deep Learning on Large-Scale Single-Cell Omics

（scDataset：大規模単一細胞オミクスの深層学習向けスケーラブルデータローディング）

- メールで送る
- リンクをコピーする

AI戦略の専門知識を身につけ、競争優位性を構築しませんか？

AIBR プレミアム

年間たったの9,800円で

“AIに詳しい人”として
一目置かれる存在に！

プレミア会員になって、山ほどあるAI論文の中から効率よく大事な情報を手に入れ、まわりと圧倒的な差をつけませんか？

詳細を見る

【実践型】
生成AI活用キャンプ

【文部科学省認可】
満足度100%の生成AI講座

3ヶ月後には、
あなたも生成AIマスター！

「学ぶ」だけではなく「使える」ように。
経営者からも圧倒的な人気を誇るBBT大学の講座では、3ヶ月間質問し放題！誰1人置いていかずに寄り添います。

詳細を見る

田中専務

拓海先生、最近若手から「単一細胞のデータが何百ミリオンとか集まっている」という話を聞きまして、現場でAIを走らせるのは現実的なのかと不安になっています。要はうちのような製造業でも扱えるんでしょうか。

AIメンター拓海

素晴らしい着眼点ですね！大丈夫、具体例を通して説明しますよ。結論を先に言うと、今回紹介するscDatasetは「データを読み込む仕組み」を根本から変え、メモリやディスクの使い方を大幅に効率化できますよ。

田中専務

それはありがたいですけど、「データを読み込む仕組み」って、要するに今のExcelでよくやるファイル開く・全部メモリに乗せるやり方とは違うという理解で良いですか。

AIメンター拓海

その通りですよ。簡単に言うと、従来は全部読み込んでから作業する方式だが、scDatasetは必要な分だけ効率よく取りに行く。要点は三つ。1つ、AnnData（AnnData、単一細胞データ保存フォーマット）を変換せず直接扱える。2つ、ブロックサンプリング（block sampling）で読み取りパターンを工夫する。3つ、まとめ取り（batched fetching）でディスクI/Oを減らす。これで速度が何倍にもなるんです。

田中専務

「ブロックサンプリング」と「まとめ取り」ですか。専門用語に聞こえますが、工場で言えば部品をバラバラ取りに行くのではなく、ある棚のまとまりごと持ってきて組み立てるイメージで良いですか。

AIメンター拓海

正確にそのとおりです。ディスクは遠い倉庫、メモリは作業台だと例えると、倉庫から一つずつ持ってくるより、倉庫の近い棚をまとめて持って来る方が時間効率が良いのです。これにより「シャッフル性（ランダム性）」と「効率」を両立させる工夫がされているのが肝です。

田中専務

なるほど。しかし導入コストや運用の複雑さが気になります。うちの現場のIT担当は忙しい。これって要するに既存のデータ保存形式を変えずに使えるから、現場の負担は小さいということ？

AIメンター拓海

大丈夫、導入面での利点も明確です。scDatasetはPyTorch IterableDataset（PyTorch IterableDataset、イテラブルデータセット）として設計され、既存のPyTorchベースの学習パイプラインに差し替えるだけで恩恵を得られる設計です。要点をもう一度三つにまとめると、互換性が高いこと、I/O効率で大幅に速くなること、そして設定がモジュール化されているため段階的に導入できることです。

田中専務

それなら現場も納得しやすい。最後に一つ聞きますが、性能はどの程度改善されるものですか。我々が投資判断をするために、率直な数値が知りたいのです。

AIメンター拓海

重要な質問ですね。論文では単一コア環境でAnnLoaderに対して最大48倍、HuggingFace Datasetsに対して27倍、NVIDIAのBioNeMoに対して18倍の高速化を報告しています。これは巨大データセット（Tahoe 100M）での比較であり、現場の具体要件により実効速度は変わりますが、オーダーで大きな改善を見込めるのは確かです。

田中専務

分かりました。要するに「既存のAnnData形式を変えず、読み出し方を工夫することで、学習の取り回しを何倍も速くできる」ということですね。これなら投資に見合う可能性があると感じました。

監修者

阪上雅昭（SAKAGAMI Masa-aki）
京都大学　人間・環境学研究科　名誉教授

PCも苦手だった私が

“AIに詳しい人“
として一目置かれる存在に！

論文研究

scDataset: Scalable Data Loading for Deep Learning on Large-Scale Single-Cell Omics

さらに深い洞察を得る

AIBR プレミアム

“AIに詳しい人”として
一目置かれる存在に！

【実践型】
生成AI活用キャンプ

3ヶ月後には、
あなたも生成AIマスター！

監修者

論文研究シリーズ

AI技術革新 - 人気記事

“AIに詳しい人“
として一目置かれる存在に！

あなたにオススメのカテゴリ

さらに深い洞察を得る

AIBR プレミアム

“AIに詳しい人”として一目置かれる存在に！

【実践型】
生成AI活用キャンプ

3ヶ月後には、あなたも生成AIマスター！

scDataset: Scalable Data Loading for Deep Learning on Large-Scale Single-Cell Omics

さらに深い洞察を得る

AIBR プレミアム

“AIに詳しい人”として一目置かれる存在に！

【実践型】 生成AI活用キャンプ

3ヶ月後には、あなたも生成AIマスター！

監修者

論文研究シリーズ

関連記事

この記事をシェア

AI技術革新 - 人気記事

“AIに詳しい人“として一目置かれる存在に！

あなたにオススメのカテゴリ

さらに深い洞察を得る

AIBR プレミアム

“AIに詳しい人”として一目置かれる存在に！

【実践型】 生成AI活用キャンプ

3ヶ月後には、あなたも生成AIマスター！

AI Benchmark Researchをもっと見る

“AIに詳しい人”として
一目置かれる存在に！

【実践型】
生成AI活用キャンプ

3ヶ月後には、
あなたも生成AIマスター！

“AIに詳しい人“
として一目置かれる存在に！

【実践型】
生成AI活用キャンプ