sumiikasumiの日記

とりあえず始めたところです

墨烏賊墨の千夜十冊(その2)~自然言語処理の基礎 @奥村学

まったりと参りましょう、

第二回は、奥村学「自然言語処理の基礎」(↓)。

http://www.coronasha.co.jp/np/isbn/9784339024517/
(奥村学、同上、コロナ社、2010/10)

例により、取り上げる「理由」が、「感想」のほとんど全てと言ってよいが、(私見)

取り上げる理由を挙げてみると、

1) アルファ碁以来、《AI》は巷で広く喧伝されているが、アルファ碁は「完全情報ゲーム」で成し遂げた一つ偉業であるけれど、AIの終着点ではなく、DeepMind自体、その探索領域を「不完全情報ゲーム」へと移している。

2) それは「機械が世界を模写する」という探索の始まりだが、模写の対象となる《世界》は、矛盾や誤りや、嘘をも含んでいる。

3) 自然言語処理(NLP)は、単に、機械が言語を習得するだけでなくて、言語が記述する世界を理解しようとする試み/企てであるから、真面目なAIの探索と重なり合うとともに、探索の《雛型》になっている。

以上、A面は終り。

以下、B面は、その概要とインスパイアされるところであり、おまけとなる。

ーーーーーーーーーーーー

以下、B面。

本書の主題は、ポストAI(人工知能)の認知情報処理であり、自然言語(NL)はその素材である。第2世代のAIの探究と言ってよい。

(その第2世代のAIを指して、アルファ碁以降、所謂AIと括られている。)

バート、クライン、ローパーによる「入門 自然言語処理」(オライリー)も好著であるが、そこでは意味解析とテクニックに主眼が置かれているため、

自然言語処理NLP)の全体を俯瞰し、何が起きていて何が行われているのか? を把握する上では、奥村氏の同著を推奨、しかも分量がコンパクト。

・・・

まずはその《現状》であるが、同著の冒頭にあるように、

1) 今までは、機械(コンピュータ)に、自然言語(ヒトの言葉)を理解させる。

2) 今現在~将来では、機械が自然言語を処理する。言い換えれば、機械に自然言語を模倣させる、機械がヒトの言葉を覚える、である。

あくまでこれは、AI研究側でのアプローチから眺めたもので、

産業分野でこれまで行われてきたことは、以下の1')である。

1')自然言語(による指示)を手順に分解し、機械に分かる言葉に翻訳し、機械に処理させてきた。言い換えれば、ヒトが機械の言葉を覚える。

整理すると、

「ヒトが機械の言葉を覚えるから、機械がヒトの言葉を覚えるへと、状況が変化している。ただし、そこで用いられている手法は、従来の機械にヒトの言葉を理解させる手法とは異なっている」、となる。

言い換えると、

「AIの探索は、(哲学的にも方法論的にも) 全く連続していない」、となる。

・・・

こうした変化の《背景》には、Web上でのテキストデータの蓄積がある。

しかし、ヒトが使う言葉(自然言語=NL)は、ヒト同士のコミュニケーションにおいて構造化されていても、機械が処理できるようには構造化されていない。

性質の違うデータをどう取り扱うのか? 取り扱っているのか? となるわけである。

そして、新しい自然言語処理NLP)の《特徴》はいったいどこにあるか?と言えば、

一言で言えば、

知識を、利用しつつも獲得する、獲得しつつ利用する」となる。

これ(↑)は、「ベイズ推計」で、「知識」を事前確率の集合とし、予測と結果を通じて、その知識を事後確率の集合に更新するというプロセスに対応している。尤度函数が「世界モデル」に相当し、それもまた更新される。(奇妙なデータが現れると、知識が増えるだけでなく、見方も変わる)

・・・

それでは、何をどうしているのか?を《整理》してみると、

1) 自然言語処理の4つの作業プロセス、つまり、形態素解析構文解析、意味解析、文脈解析のそれぞれで、「語義の曖昧性」を解消するために、つまり、意味を確定させるために、知識(形態情報と意味情報)を用いる。

(今までも、そしてこれからも。)

2) しかし、考えてみれば、言葉が使用される状況は千差万別であり、言葉が使用されている状況が特定できないと、1)での語義曖昧性は解消できないか、解消するのに時間がかかる。

(典型的には構文木の計算量の発散。従来型のAIがぶつかった壁である。)

3) 従って、1)で使用される知識に、実際にその言葉が使用されている状況についての情報を追加するが、それだけでは「多様な状況」に対応できないので、状況を推測して状況に則した情報を追加することが、解決案となる。

4) 具体的には、蓄積が進んだテキストデータ(コーパス)に、タグ(メタ情報)を付与してゆくが、そこで「確率モデル」を用いる。

ー タグ(メタ情報)を着けたコーパスから自動学習し、タグを更新してゆく。

ー 特に、計算量の発散の問題を抱える構文解析で、この方法は、「選好」(選びとる)という規則を生成し獲得することで、構文的な曖昧性の解消を図る。

ー また、構文解析アルゴリズムは文脈自由文法にしか対応できていないが、確率モデルで補完することは、自然言語に近いとされる文脈依存文法を非アルゴリズム的に導入することを可能にしている。

ー 同様に、形態素解析構文解析の先に位置する意味解析では、意味情報のうち、最終的な語義曖昧性解消を担う格フレームの同定/決定が至難であったが、確率モデルはそのボトルネックを解消する。

5) かくして、品詞の正しい付与、構文木の正しい付与、語義(格フレーム)の正しい付与という解析の重要なプロセスで、曖昧性が解消される(=意味が確定される)。

ー 一連の曖昧性解消のプロセスは、並行的・協調的・動的・逐次近似的である。

ー 動的で逐次近似的であるところが、ベイズ推計での事前、事後の確率の集合の更新に対応する。

ー こうした処理を「確率の集合の集合」、つまり確率の集合のネットワークを対象に行えば、「因果関係」の処理を模倣することになり、

例えば、風が吹けば桶屋が儲かる、という一見非現実的な連想を処理の守備範囲に、いずれ収めることになると期待される。

この最後の箇所(↑)での可能性と現実性は、

一見、極めて起こりにくいが、ある条件が、偶然の作用も含め重なりクリアされると、俄(にわか)に現実性を増す、

そういった不測の事態に相当する事象への対処に繋がるものである。

起きにくいが、起きたらその影響が甚大であるというのは、《テールリスク》の顕在化であり、

例えば、超巨大地震や資産市場での大暴落、或いは戦争といったものである。

・・・

現実がSF化していると観ているのであるが、(私見)

DeepMind@Googleが探索し始めている戦略シミュレーションゲームは、アシモフの「銀河帝国興亡史」での歴史心理学を想起させるものであるし、

風が吹けば桶屋が儲かる」(バタフライ効果の一種)という現象の因果関係を、もしも機械が理解したら? というのは、同じくアシモフの「我はロボット」での最終章でのテーマに対応する。

ーーーーーーーーーーーー