マルチモーダルCLIPフィルタリングにおける誰が入って誰が排除されるか(Who’s in and who’s out? A case study of multimodal CLIP-filtering in DataComp)

田中専務

拓海先生、最近部下から「フィルタでデータを絞ると偏りが出る」と聞きまして。うちみたいな中小製造業にも関係ありますかね?

AIメンター拓海

素晴らしい着眼点ですね!大丈夫、難しく感じても分解して説明しますよ。今回の論文はインターネットから集めた画像と説明文のペアを、機械学習用に”フィルタ”して選別する仕組みについてのものなんですよ。

田中専務

その”フィルタ”って具体的には何をしてるんですか?要するに良い画像だけ残しているということでしょうか。

AIメンター拓海

いい質問です。まず用語を一つ。CLIP (Contrastive Language–Image Pre-training、CLIP、コントラスト学習による言語画像事前学習)というモデルがあって、画像と言葉のペアが“合っているか”を数値化して評価できます。フィルタはこの点数で低いものを除外するんです。

田中専務

なるほど。でも、そのCLIP自体の

AIBRプレミアム

関連する記事

AI Business Reviewをもっと見る

今すぐ購読し、続きを読んで、すべてのアーカイブにアクセスしましょう。

続きを読む