言語を要素の集合として捉える。
言語を純粋な文字列の集合(set)として扱うのが形式言語理論 (Formal Language Theory)であった。
これを前回の集合を踏まえて再度整理したい。
言語は下記のように分解できる。(想定は英語)
- 言語 (Language) → 単語 (Word) の集合
- 単語 (Word) → アルファベット (Alphabet) の集合
英語のアルファベットは26文字であり有限であることを考えると、言語というのは突き詰めて言えば、有限のアルファベットで構成される有限の単語の集合であると言える。
これを応用すると言語を数学的に表現できる。例えば、下記のような形に定義が可能だ。
L := {xcy | x, y ∈ {a,b}*, xの長さは数、yの長さは奇数}
{a,b}* は、記号 a と b から構成される任意の長さの文字列の集合を表す。
xcy は、x と y の間に文字 c を挟んだ文字列を表す。
L は、x の長さが偶数で、y の長さが奇数であるような xcy の形の文字列全体の集合を表す。
(守屋 2009)
こうすることで言語の文法を定性的に研究することができるようになる。
参考文献
- 新屋良磨. (2017). オートマトン理論再考. コンピュータ ソフトウェア, 34(3), 33-335.
- 電子情報通信学会 知識ベース 1-1 オートマトン
https://www.ieice-hbkb.org/files/ad_base/view_pdf.html?p=/files/06/06gun_02hen_01.pdf#page=2