5 分で読了
1 views

マルチ型属性を用いた開放集合の漢字認識

(Open Set Chinese Character Recognition using Multi-typed Attributes)

さらに深い洞察を得る

AI戦略の専門知識を身につけ、競争優位性を構築しませんか?

AIBR プレミアム
年間たったの9,800円で
“AIに詳しい人”として
一目置かれる存在に!

プレミア会員になって、山ほどあるAI論文の中から効率よく大事な情報を手に入れ、まわりと圧倒的な差をつけませんか?

詳細を見る
【実践型】
生成AI活用キャンプ
【文部科学省認可】
満足度100%の生成AI講座
3ヶ月後には、
あなたも生成AIマスター!

「学ぶ」だけではなく「使える」ように。
経営者からも圧倒的な人気を誇るBBT大学の講座では、3ヶ月間質問し放題!誰1人置いていかずに寄り添います。

詳細を見る

田中専務

拓海先生、お忙しいところ恐縮です。部下から古い書類の漢字読み取りにAIを使えると聞きましたが、うちの資料は字が古いし種類も多くて現場で使えるものか不安です。要するに、見たことがない文字でも機械が判別できるようになるという話でしょうか?

AIメンター拓海

素晴らしい着眼点ですね!田中専務、大丈夫ですよ。一言で言えば「見たことのない漢字」への対応力を高める研究です。今日は分かりやすく段階を踏んで説明しますから、安心してくださいね。

田中専務

具体的には機械学習のどの部分を改良しているのですか。うちが狙うのは現場での投入と費用対効果ですから、長期間手を入れずに使えるかが肝心です。

AIメンター拓海

いい質問です。結論を先に言うと、モデルの出力を「個別の文字ラベル」ではなく「文字の持つ属性」へ置き換えて学習する手法です。こうすると既存の部品(例: 部首や発音情報)を組み合わせて未知の文字を推測できるようになります。要点は3つ、属性に分解すること、属性ごとに学習すること、既存の部品を再利用することですよ。

田中専務

部品の再利用という話は製造での共通部品みたいですね。ところで専門用語が多くて恐縮ですが、例えばゼロショットとかフューショットという言葉がありますよね。これって要するに訓練データに無い文字も判断できる、ということですか?

AIメンター拓海

素晴らしい着眼点ですね!おっしゃる通りです。zero-shot learning (Zero-shot Learning, ZSL, ゼロショット学習) は訓練で見ていないクラスを推定する手法であり、few-shot learning (Few-shot Learning, FSL, フューショット学習) は少数の例しかないクラスでも学習させる手法です。本研究は属性(文字の部首や構造、発音に相当)を使ってZSLやFSLに対応していますよ。

田中専務

なるほど。実務的にはどの属性を使うのですか。うちの現場だと、手書きや印刷の古さで字形が崩れている場合が多いのです。

AIメンター拓海

良い着眼点ですね!本研究では三種類の属性を用います。まず発音情報(pronunciation attributes)で音の成分を表す、次に構造情報(structural attributes)で字の左右上下の構成を捉える、そして部首や画数などの偏(radical/stroke attributes)で部品としての共通点を学ぶのです。字形が崩れても、一部の属性は残るため判別に寄与しますよ。

田中専務

実装面の負担はどうでしょうか。既存のOCR(Optical Character Recognition, OCR, 光学文字認識)と差し替える形ですか、それとも追加で学習させる形が良いでしょうか。

AIメンター拓海

素晴らしい着眼点ですね!実務的には既存OCRに属性判定モジュールを追加するハイブリッドが現実的です。3つの理由で勧めます。既存投資を活かせること、未知文字に強くなること、段階的に現場検証できること。まずは小さな保存文書でfew-shot検証を行えば費用対効果が見えますよ。

田中専務

分かりました。最後に私の理解でまとめますと、未知の漢字でも「発音・構造・部首」といった共通の属性に分解して学習すれば、訓練していない文字でも推定できるということでよろしいですか。これなら古い資料にも使えそうです。

AIメンター拓海

その通りです、田中専務!素晴らしいまとめですよ。実務導入の第一歩は小さなデータでfew-shot検証を行うこと、次に属性分類器を現行OCRに追加すること、最後に運用で得た誤りを属性にフィードバックして精度を高めることですよ。一緒にやれば必ずできますよ。

田中専務

では早速、保存文書で試してみます。今日はありがとうございました。自分の言葉で言うと「文字を部品に分けて学ばせるから、見たことのない字も組み合わせで当てられる」という理解で間違いありませんね。

監修者

阪上雅昭(SAKAGAMI Masa-aki)
京都大学 人間・環境学研究科 名誉教授

論文研究シリーズ
前の記事
QCD or What?——ジェット解析における教師なし異常検知の実践
(QCD or What?)
次の記事
深層オートエンコーダを用いた新物理探索
(Searching for New Physics with Deep Autoencoders)
関連記事
ビデオセット蒸留:情報多様化と時間的濃縮
(Video Set Distillation: Information Diversification and Temporal Densification)
Coarse correlated equilibria in linear quadratic mean field games and application to an emission abatement game
(線形二次平均場ゲームにおける粗相関均衡と排出削減ゲームへの応用)
不利な視点に適応した姿勢非依存フィードフォワード3Dガウススプラッティング
(UFV-Splatter: Pose-Free Feed-Forward 3D Gaussian Splatting Adapted to Unfavorable Views)
個々の指屈曲と手のジェスチャーを用いたBCI制御の比較
(COMPARING FINGERS AND GESTURES FOR BCI CONTROL USING AN OPTIMIZED CLASSICAL MACHINE LEARNING DECODER)
パーキンソン病の機械学習による鑑別診断:運動学的特徴抽出と選択
(Machine Learning-Based Differential Diagnosis of Parkinson’s Disease Using Kinematic Feature Extraction and Selection)
ロボット収穫における視点計画の強化:模倣学習で遮蔽を克服する
(Enhanced View Planning for Robotic Harvesting: Tackling Occlusions with Imitation Learning)
この記事をシェア

有益な情報を同僚や仲間と共有しませんか?

AI技術革新 - 人気記事
ブラックホールと量子機械学習の対応
(Black hole/quantum machine learning correspondence)
生成AI検索における敏感なユーザークエリの分類と分析
(Taxonomy and Analysis of Sensitive User Queries in Generative AI Search System)
DiReDi:AIoTアプリケーションのための蒸留と逆蒸留
(DiReDi: Distillation and Reverse Distillation for AIoT Applications)

PCも苦手だった私が

“AIに詳しい人“
として一目置かれる存在に!
  • AIBRプレミアム
  • 実践型生成AI活用キャンプ
あなたにオススメのカテゴリ
論文研究
さらに深い洞察を得る

AI戦略の専門知識を身につけ、競争優位性を構築しませんか?

AIBR プレミアム
年間たったの9,800円で
“AIに詳しい人”として一目置かれる存在に!

プレミア会員になって、山ほどあるAI論文の中から効率よく大事な情報を手に入れ、まわりと圧倒的な差をつけませんか?

詳細を見る
【実践型】
生成AI活用キャンプ
【文部科学省認可】
満足度100%の生成AI講座
3ヶ月後には、あなたも生成AIマスター!

「学ぶ」だけではなく「使える」ように。
経営者からも圧倒的な人気を誇るBBT大学の講座では、3ヶ月間質問し放題!誰1人置いていかずに寄り添います。

詳細を見る

AI Benchmark Researchをもっと見る

今すぐ購読し、続きを読んで、すべてのアーカイブにアクセスしましょう。

続きを読む