Sunday, March 19, 2006

知識構造化のワークショップに参加して

3月18日(土)の午後より東京大学小宮山学長の音頭で5年前にスタートした、「知識構造化プロジェクト」の成果を発表するワークショップに参加した。
東京大学で様々な学会に発表された論文や研究成果が、殆ど活用されていない惨状を見て、小宮山学長が、研究分野、研究者間の知識を構造化し俯瞰できるようにしたいとのことで発足したプロジェクトである。
美馬助教授がMIMAエンジンという自然言語処理の検索エンジンを開発し、論文、研究者、研究分野などの領域や領域間の関係などを俯瞰できるシステムを発表した。
MIMAエンジンは、4つのエンジンから構成されている。
第一のエンジンは、膨大なテキストから専門用語を自動抽出する。
第二のエンジンは、意味が同じ又は、類似した用語をオントロジーからクラス化する。
第三のエンジンは、用語の類似度を基に知識の類似度を計算する。
第四のエンジンは、類似した意味を持つ知識を集める。

ここでいう、「知識」の定義は、専門用語によって特徴付けられる文章、あるいは節、段落、フレーズといったパッセージのことをさす。
「オントロジー」の定義とは、用語を介した知識体系と用語間の関連性を認識し、更に分析、分類を行う方法論を総称していう。

テキストを処理して、専門用語の自動認識を行うのに、入力されたテキストの用語がどのくらい専門的な用語かスコア付けをする。自動分類処理において、先の自動認識で抽出された用語がどのようなクラスに属するのか、またどのように分類されるのかを自動計算する。分類処理の基本的な考え方は、「同じ分類に属する用語は、同じ文脈に表れやすい」というヒューリスティックによる。
分類の対象となる用語はその文脈に現れる頻度によってベクトル化できるとみなし、そのベクトルの向きが近ければ近いほど意味的にも近いと考える。ベクトルの向きの近さは、ベクトル間の内積演算によって求められる。
さらに、用語間の意味的類似度の計算を階層的に進めることで、デンドログラム(二分木構造)ができる。これにより、デンドログラムにおける用語間に近さを、移動距離で定量的に定義する。
上記にのような検索エンジンの計算方法や構成方法には、特に新しいと思えるものが無かった。
また、出力したデータを可視化出来るが、リンクが直線でなく曲線になっており見にくいと感じた。関係性の強いノード間は距離だけでなく、リンクの線幅を太くして可視化する工夫はあった。また、クラスターは、半透明な色彩で囲み、代表する概念を示すなどの工夫が見られた。
しかしながら、知識の構造化と呼ぶには、十分な成果とは言えず、斬新な用途に対する事例も無かった 。
一方、構造化された知識を学内対象だけでなく、社会で如何に活用するのかというアイデアや実施した事例がなく、応用面をまだ考察した段階に来ていないものであった。
チャンス発見学を提唱しKeyGraphを事例に適用して年々改善しながら進化させている大澤研究室の成果に方が5?6年進んでいるように感じた。

0 Comments:

Post a Comment

<< Home