4 分で読了
0 views

オントロジーを用いた新規隠れウェブクローラの設計

(A Novel Design of Hidden Web Crawler using Ontology)

さらに深い洞察を得る

AI戦略の専門知識を身につけ、競争優位性を構築しませんか?

AIBR プレミアム
年間たったの9,800円で
“AIに詳しい人”として
一目置かれる存在に!

プレミア会員になって、山ほどあるAI論文の中から効率よく大事な情報を手に入れ、まわりと圧倒的な差をつけませんか?

詳細を見る
【実践型】
生成AI活用キャンプ
【文部科学省認可】
満足度100%の生成AI講座
3ヶ月後には、
あなたも生成AIマスター!

「学ぶ」だけではなく「使える」ように。
経営者からも圧倒的な人気を誇るBBT大学の講座では、3ヶ月間質問し放題!誰1人置いていかずに寄り添います。

詳細を見る

田中専務

拓海先生、お忙しいところ恐れ入ります。最近、部下から『Deep Web』や『Hidden Web』なる言葉が出てきまして、うちの受注データや製品仕様が見つからないと困る、と。これって要するにインターネット上の“見えない倉庫”を探す話ですか?

AIメンター拓海

素晴らしい着眼点ですね!その通りです。Deep Webは一般的な検索エンジンが拾えない情報の総称で、フォームや検索窓の奥に隠れているデータのことですよ。大丈夫、順を追って説明すれば必ず理解できますよ。

田中専務

なるほど。で、そのDeep Webにあるデータを自動で拾うクローラというものがあると。うちで使う場合、どの程度現場に負担がかかりますか。投資対効果が一番気になります。

AIメンター拓海

大丈夫、一緒にやれば必ずできますよ。要点を3つだけ挙げると、1) どの領域のフォームを狙うかという『ドメイン設計』、2) フォームに適切な入力値を当てるための『意味の辞書』、3) 得られたページを整理する『適合判定』です。投資対効果の観点では最初は狙う領域を絞るのが肝心ですよ。

田中専務

拓海先生、その『意味の辞書』というのは要するにデータの関係性や言葉の意味を教える辞書のようなものですか。具体的にはどう作るのですか。

AIメンター拓海

素晴らしい着眼点ですね!その辞書は『Ontology(オントロジー)』と呼ばれます。オントロジーは用語とその関係性を構造化したもので、例えば『製品名』と『型番』がどう結び付くかを定義すると、フォームに適切な組み合わせで入力できるんですよ。身近に例えるなら、部品表のように関係を明示するルールブックです。

田中専務

それなら理解しやすいです。これって要するにうちの製品分類や顧客属性を事前に整理しておけばクローラが効率的に拾えるということ?実務ではどこから手を付ければ良いのか教えてください。

AIメンター拓海

大丈夫、一緒にやれば必ずできますよ。現実的な着手は小さく始めることです。まずは社内で最も価値の高い項目、たとえば『型番』『出荷日』『仕様PDF』などを決め、そこに合うオントロジーを作り、限られたフォームで試験的に収集すると良いですよ。

田中専務

なるほど。最後に一点確認ですが、作ったオントロジーは自動で賢くなるのか、それとも定期的に手で更新する必要がありますか。現場の人手は限られています。

AIメンター拓海

素晴らしい着眼点ですね!この論文で示された設計は『適応的(adaptive)』で、新たに取得したページからオントロジーを拡張できる仕組みを備えるとしています。つまり完全自動ではなく、人がレビューする仕組みと組み合わせることで精度と現場負担の両立が可能になるんですよ。

田中専務

わかりました。では私の言葉で確認しますと、まず価値の高い領域を絞ってオントロジーを用意し、それを使って隠れたフォームからデータを取ってきて、取れてきたデータでオントロジーを賢くしていくという流れで、最初は手作業の確認を挟む仕組みが必要ということですね。

論文研究シリーズ
前の記事
Googleクラスタトレースに基づく利用率向上の観察と提案
(10 Observations on Google Cluster Trace + 2 Measures for Cluster Utilization Enhancement)
次の記事
構造カーネル学習
(Learning Structural Kernels for Natural Language Processing)
関連記事
SAR画像のカラー化ベンチマークと評価プロトコル
(A Benchmarking Protocol for SAR Colorization: From Regression to Deep Learning Approaches)
1次元ナノ構造の高精度解析用コンピュータビジョンソフトウェア
(Nano1D: An accurate Computer Vision software for analysis and segmentation of low-dimensional nanostructures)
分類器適応による性能指標の効率的最適化
(Efficient Optimization of Performance Measures by Classifier Adaptation)
電力負荷予測の最適適応予測区間—Optimal Adaptive Prediction Intervals for Electricity Load Forecasting in Distribution Systems via Reinforcement Learning
株価トレンド予測のための二重適応メタ学習
(DoubleAdapt: A Meta-learning Approach to Incremental Learning for Stock Trend Forecasting)
心臓MRIセグメンテーションの改良手法(3D U-Netと乳頭筋除外の統合) — An Improved Approach for Cardiac MRI Segmentation based on 3D UNet Combined with Papillary Muscle Exclusion
この記事をシェア

有益な情報を同僚や仲間と共有しませんか?

AI技術革新 - 人気記事
ブラックホールと量子機械学習の対応
(Black hole/quantum machine learning correspondence)
生成AI検索における敏感なユーザークエリの分類と分析
(Taxonomy and Analysis of Sensitive User Queries in Generative AI Search System)
DiReDi:AIoTアプリケーションのための蒸留と逆蒸留
(DiReDi: Distillation and Reverse Distillation for AIoT Applications)

PCも苦手だった私が

“AIに詳しい人“
として一目置かれる存在に!
  • AIBRプレミアム
  • 実践型生成AI活用キャンプ
あなたにオススメのカテゴリ
論文研究
さらに深い洞察を得る

AI戦略の専門知識を身につけ、競争優位性を構築しませんか?

AIBR プレミアム
年間たったの9,800円で
“AIに詳しい人”として一目置かれる存在に!

プレミア会員になって、山ほどあるAI論文の中から効率よく大事な情報を手に入れ、まわりと圧倒的な差をつけませんか?

詳細を見る
【実践型】
生成AI活用キャンプ
【文部科学省認可】
満足度100%の生成AI講座
3ヶ月後には、あなたも生成AIマスター!

「学ぶ」だけではなく「使える」ように。
経営者からも圧倒的な人気を誇るBBT大学の講座では、3ヶ月間質問し放題!誰1人置いていかずに寄り添います。

詳細を見る

AI Benchmark Researchをもっと見る

今すぐ購読し、続きを読んで、すべてのアーカイブにアクセスしましょう。

続きを読む