一つ前の遷移確率だけでは表現できない人間言語

以前の投稿でチョムスキー階層について触れた. チョムスキー階層は、次の4つのレベルに分類される. 数が大きくなるほど、より複雑な言語の表現能力を持つ.

  1. 有限オートマトン (finite automaton)
    正則文法 (regular grammar)
  2. プッシュダウン・オートマトン (pushdown automaton)
    文脈自由文法 (context-free grammar)
  3. 線形拘束オートマトン (linear bounded automaton)
    文脈依存文法 (context-sensitive grammar)
  4. チューリング機械 (Turing Machine)
    句構造文法 (phrase structure grammar)

(北, 1999)

このチョムスキー階層について、Ojima et al. (2014) が分かりやすく説明している. 彼らは、人間の言語が単語の遷移確率だけでは説明できない複雑な構造を持つことを強調している. 例えば、特定の文脈ではある単語の組み合わせが高い確率で出現するが、それだけでは文全体の構造を説明するのに不十分である.

文中の単語の並びには確率的な要素もある. 例えば、「昨日、寿司を」と続けば「食べた」の確率が高い. しかし、単語の遷移確率だけで文法を説明することはできない. 「寿司を食べた」は正しい文だが、「もし」を加えて「もし寿司を食べた」とすると日本語としては不自然になる. この場合、「なら」を追加して「もし寿司を食べたなら…」とする必要がある. このように、人間の言語には離れた要素同士が依存する「長距離依存」が存在する.

文脈自由文法は、言語を構成する基本単位を品詞に分類し、それを組み合わせて句を形成することで、非常に多様で複雑な文を作り出すことができる. この文法は、単語や句の関係性を明確にし、より長い範囲での依存関係を捉えることが可能である. このようにして、人間の言語は無限に多様な文を生成できるのである.

参考文献

  • 北研二. (1999). 確率的言語モデル. 言語と計算, 4.
  • 尾島司郎, 宮川繁, 岡ノ谷一夫, 成田広樹, 飯島和樹, & 酒井邦嘉. (2014). 紙上討論 人間以外の動物に文法は使えるのか?. BRAIN and NERVE, 66(3), 273-281.

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です