Friday, March 24, 2006

Slezak先生の講義(ラフ・セット理論と応用)

昨日、東大にてUniversity of REGINAのDominik Slezak助教授をお招きして、ラフセット理論とその応用について講義を受けました。
多量なデータを分析する場合、多用な特徴が現れてどれが主要な特徴かわからなくなり、意思決定しにくいという課題があります。
ラフ・セット理論は、データの最適と思われる最小の組み合わせを選定し、大量なデータからデータ量を減少させ、最適な解をシンプルな方法で求めようとするものです。
これにより、シンプルで最適な特徴が得られ、意思決定をしやすくなります。
考え方として、人間の思考方法のように大量なデータを間引きながら特徴を抽出し、その特徴から意思決定を行う手法と相似します。
最近のコンピュータのデータ処理能力が進んでいる状態では、大量データをかなりの速度で処理できるので、本当にこの理論が必要か疑問です。しかし、大量のデータのなかからその特徴を瞬時に認知し意思決定するという人間の思考方法を行わせるロボット工学などには必用かもしれません。

KeyGraphでは、独立した頻出頻度の高い言語を黒ノードで示す。文章内に表れる共起度の高い黒ノードを黒リンクで結び、その黒ノードと黒リンクの塊を島(Island)と呼び与えられたデータにおける主要な概念を示す。頻出頻度は低いが、黒ノード出示された高頻出頻度の言語と共起頻度の高い言語を赤ノードとして示す。赤ノードが、概念を示す島に含まれた黒ノードと他の概念を示す島に含まれた黒ノードを結ぶときに、この赤ノードは概念間の関係を示す重要な単語となり、橋(Bridge)と呼ばれる。

一方、島になるほど共起性は高くなく、黒リンクで結ばれていない単独で現れた複数の黒ノードを赤ノードが結ぶ場合がある。このような赤ノードは、概念を強く示さず、気付かれない言語であるが、新たなシナリオを創発する場合に、重要なキーワードの役割を果たす場合がある。
このような単独の黒ノードの組み合わせをサブセットとしてラフ・セット理論でデータを解析すると、赤ノードのような低頻度であるが、重要な役割を果たす単語を抽出することが出来るのではないかと推測する。結構共同研究するとチャンス発見にとって面白い成果を産めるかもしれません。
今回の講義では、説明されていませんが、最近は、エキスパート知識を使用したインターアクティブなグラフモデルを開発しており、人間の認知とデータ処理との研究も始められているようです。
講義の後は、一緒に会食をしました。Slezak先生は、ポーランド出身ですが、既に日本に6年前から数度来日されており、伊香保温泉に行ったり、日本食を臆せず食べたりしているそうです。
ソラマメ(ポーランド語でブブ?)は、ポーランドでも茹でて食べるそうで、大好物とのことでした。焼酎のお湯割りを飲みながら、刺身や焼き鳥をつまみ新たな研究などについて話が盛り上がりました。
http://www2.cs.uregina.ca/~slezak



http://www.clab.kwansei.ac.jp/~okada/www/contents/kinka97.pdf

0 Comments:

Post a Comment

<< Home