言語における分布
前回の投稿で正規分布という分布について簡単にまとめた.(下記の分布である)
今回はこの分布と言語の関連性について考えてみたい. 言語現象というのも広く考えれば自然界の現象の一部である. ということは言語の中にも、こういった統計学的な特性が見られる可能性は充分考慮できる.
実際,Arai (2001)は芥川龍之介の小説を題材に文長分布 (文の長さの分布)を調査し,これが対数正規分布に従うことを示している.(自ら命を投げうった晩年の小説はこの限りではないとも報告している)
他方,この分布には従わずガンマ分布という別の分布に従うのではないかと提案もされており未だ研究途中と言えるであろう.
こういった領域は計量言語学と呼ばれる領域であり, 前回投稿から求めている正規分布等の統計学的な要素や数学的な要素を軸に定量的に言語の特徴を探っていける点が非常に興味深い.
加えて近年では, 安価高性能な計算機資源も利用しやすくなっており個人でも簡単に実装できるようになった点は研究者に取って非常にありがたいことであろう. 実際に私はGoogleColaboratoryという無料のサービスでPythonのコードを実行することが多い.
参考文献
- 新井皓士. (2001). 文長分布の対数正規分布性に関する一考察: 芥川と太宰を事例として. 一橋論叢, 125(3), 205-223.
- 古橋翔. (2012). 文の長さ分布に見られる対数正規性. 第 1 回コーパス日本語学ワークショップ予稿集, 93-98.