1. ホーム
  2. 研究紹介
  3. コンピュータによる知識獲得と情報検索・機械翻訳の高度化

コンピュータによる知識獲得と情報検索・機械翻訳の高度化

「検索」が変わる!「翻訳力」が向上する!

黒橋 禎夫

黒橋 禎夫
京都大学大学院
教授

  • 詳細を見る

Webの普及による巨大な言語データを用い、コンピュータが知識を「自然獲得」していく仕組みの構築

パーソナルコンピュータやインターネットの爆発的普及により、もはや社会とコンピュータは切っても切れない関係になってきた。コンピュータの「言語」は、ご存知のように0と1の組み合わせによる世界である。しかし、人間社会の言語は複雑で多用である。この「人間社会の言語」(自然言語)を、コンピュータに知識として獲得させていく仕組みを構築しているのが、京都大学大学院・情報学研究科の黒橋禎夫教授である。従来の機械翻訳では、基本的な知識をコンピュータに与えてやる必要があったが、黒橋教授が進めるのは、膨大な言語データを利用して、コンピュータが自動的に言語知識を得ていく仕組みである。人間による補助が最小限で済み、それゆえ、知識獲得のスピードも速く精度も高いこの概念と手法をご紹介しよう。

自然言語

文化的背景を持った人間社会において、医師や情報の伝達・疎通のために用いられる言語。「自然」を冠して呼ぶのは、数式やプログラムといった形式的あるいは人工的な言語に対しての区別。

Web上の膨大な言語データからコンピュータが「学習」する

コンピュータが知識を得るためのデータが少なかった時代は、人間が文法や翻訳の規則をいちいちコンピュータに覚えさせる必要があったため、知識の向上には限界があった。しかし、Webの出現により、膨大な言語データ(「テキストコーパス」と呼ぶ)が利用できるようになると、そこを網羅的に巡回することで、言葉の使われ方や関連の深い言葉、他言語との対応などを高い精度で獲得できるようになる。テキストコーパスには誤用や誤訳ももちろんあるが、サンプルが多ければ多いほど、正しい使われ方に触れる機会が多くなるために正しい知識がコンピュータに備わっていく確率が高くなる。とりわけ、未知語を理解していく過程で大きなコーパスは威力を発揮する。

たとえば、「ググってみた」という語に出会ったとき、従来の知識だけからだと「グンと近寄って見た」というような意味にも取れかねない。ところが「ググらず」「ググりましょう」「ググる」「ググれば」「ググろう」といった表現に数多く出会うと、どうやら「ググる」という動詞のら行五段活用の一つである、とコンピュータが「理解」するようになるのだ。これが「自然獲得」の一例であり、こういう「自主学習」をコンピュータにさせる秀逸なプログラムを研究・開発しているのである。

コーパス

自然言語文章が構造化され大規模に集積したもの。コンピュータの世界においては、Web上の巨大な言語データを「テキストコーパス」と呼ぶ。

より便利な検索システムの構築・発展に向けて

黒橋教授らのグループは、独立行政法人情報通信研究機構(NICT)のプロジェクトで、情報分析システム「WISDOM」(Web Information Sensibly and Discreetly Ordered and Marshaled)を開発、サービスの提供を行っている(http://wisdom-nict.jp/)。これは、非商用目的で個人が利用することを前提としたもの、つまり研究開発への利用に目的を限定したものである。この「WISDOM」とは、Yahoo!やGoogleなどの検索エンジンに似ているが、実は異なる性質を持っている。通常の検索エンジンは、入力したキーワードにしたがってその語を含むサイト検索がなされるのであるが、「WISDOM」は利用者が求める情報に対し、より有用かつ多角的な情報を提供すべく、ふさわしいサイトを探し出してくれるシステムである。


WISDOMのトップページ。「バイオエタノールは環境に良い」と入力したときの検索結果の表示がこの画面。

たとえば、「バイオエタノールは環境に良い」といった文章を検索窓に入力する。「キーワード」でサーチしてもらうのではなく、求めること自体をストレートに問うのである。通常の検索エンジンならば、この文章に完全一致する言葉が使われているサイトしか拾ってくれない(もちろん、表記の揺れには対応するが)。「WISDOM」はこの要求に対し、この件に関しての主張や議論を記述しているサイトを探してくる。さらには、関連キーワード、発信者の所属別のデータが表示されたり、またこの問いに対する肯定的な言明と否定的な言明が色分けして示されるなどの便利な機能もある。

繰り返しになるが、このような情報検索を可能にするのは、膨大なテキストコーパスを背景としてコンピュータが知識を「自然獲得」していく仕組みに他ならない。

黒橋教授は言う。

「人間がWebを使ってどんどん情報を発信すればするほど、この仕組みの強みが増していくのです。コンピュータが、とにかく多くのさまざまなコーパスに触れることが、『知識の自然獲得』にもっとも有効に作用するわけですから。その意味でも、現代の社会が自然に生み出した仕組みなのかもしれないですね」

(日沖桜皮、2009年11月26日)