第6回 オントロジ自動生成について (Gate Ontology Annotation, Population, Learning)(その1)
オントロジの自動作成にかかわる手法でGate(University of Sheffield製作)というツールを利用して一部オントロジ自動生成を試みた資料がある。
Gateの概要 https://gate.ac.uk/wiki/
以下Gateセミナー資料
https://gate.ac.uk/sale/talks/gate-course-aug10/track-3/module-9-ontologies/module-9-ontologies.pdf
これを参考に一部ツールの動作を試みた(Annotationまで、Populationについては次回以降説明します)ので以下に掲載する。
以下はそもそもUniversity of Sheffield のセミナー資料として掲載されたものを基に記述しています。
ーーーーーーーーーーーーーーーーーーーーーーーーーー
1.概要
オントロジ自動生成のためには以下3つの概念の理解が必要。
当然1)->3)の順番で難しくなる。詳細は後述します。
1)セマンティックアノテーション
- 文章にオントロジのタグをつける事。
- オントロジーの概念に関連するインスタンスのすべての記述から本文中でオントロジのインスタンスを抽出(アノテート)する
ー修正されるのは文書です。
2)オントロジーポピュレーション
- 文章を解析してオントロジにインスタンスをマッピングする事。
- オントロジーが与えられた場合、テキストから自動的に派生したインスタンスをオントロジに取り込む
ー修正されるのはオントロジーです。
3)オントロジーラーニング
- テキストからオントロジーを自動的に生成する事
概念を自然言語理解やMachine Learning等で導き出そうとするので技術的には現時点ではかなり難しい。
2.画面イメージ
以下Gateセミナー資料より抜粋
1)セマンティックアノテーション
文章をクリックするとオントロジがタグ付けされている
2)オントロジポピュレーション
オントロジにインスタンスを割り当てる。
3)オントロジラーニング
https://slideplayer.com/slide/11348548/
3.詳細
1)オントロジアノテーションについて
(詳細はGateマニュアル https://gate.ac.uk/sale/tao/splitch14.html
14.6 オントロジアノテーターツールを参照)
以下手順の概要
①GateにオントロジエディタのプラグインOntology_OWLIM2 をロード
まず、オントロジエディタのプラグインOntology_OWLIM2 をつかってオントロジ編集を可能とする必要がある。
(詳細は14.3 オントロジープラグイン[ # ]と14.5 Gate オントロジエディタ)
CREOLE Plugins Managerという機能をつかってプラグインを管理しているのでこれを起動してプラグインをロードする。
OWLIMがロードされてオントロジエディターが起動された画面
②プラグイン 'Onto Root Gazetteer'をロードする
Gazetteer_Ontology_Basedプラグイン に含まれ、オントロジーから名詞辞書を自動作成
③プラグインの準備ができたらGateに実際にオントロジをロードする
④オントロジを充てる対象のデータをロードする
<参考>
https://www.youtube.com/watch?v=K41mwAoB-fs&t=220s
https://gate.ac.uk/releases/gate-7.0-build4195-ALL/doc/tao/#x1-35100014
https://slideplayer.com/slide/9225222/
2)オントロジーポピュレーション
次回以降に説明します。
4.参考資料
①"Ontology-Based Information Extraction"デモ画面
https://gate.ac.uk/demos/obie/obie.html
②講習のPPT
https://gate.ac.uk/sale/talks/gate-course-aug10/track-3/module-9-ontologies/module-9-ontologies.pdf
③OntolRoot Gazetter
オントロジに関するプラグインで特定のテキストに対してオントロジーアノテーションが可能となる。
オントロジーのテキストマッチングクラス、インスタンス、データプロパティ値、およびラベルで言及を検索します。
•マッチングは、形態学的または書体上の異形(例:大文字/小文字、キャメルケース)間で行うことができます。
•キャメルケースの名前を変換します。
ピフェン、アンダースコア
•形態素解析はテキストとオントロジーの両方で実行され、その後マッチングはルートレベルで2つの間で行われます。
•テキストには、ルート文字列と元の文字列を含む機能が付いています
•FlexibleGazetteerPRと共に使用できる地名PRを作成します。
以上