Alice in Wonderland における文章の長さの分布.
先日からAlice in Wonderland の分析を行なっている.
今回は文章の長さがどのように構成されているのかを調査した.
以下に実行したコードと結果を示す.(前回のコードの続きであるという前提)
# 文の長さの分布をヒストグラムで可視化
plt.figure(figsize=(10, 6))
sns.histplot(sentence_df['Word_Count'], bins=50, kde=True)
plt.title('Histogram and KDE of Sentence Lengths')
plt.xlabel('Word Count')
plt.ylabel('Frequency')
plt.show()
明らかに外れ値もあるが,基本的には1文は25 単語以下の構成を持つことが分かる.とりわけ多くの文が10単語以下に集中しており、これは多くの文が短い文であることを示している.
ここからさらに短い文と長い文の特徴や,この分布の特性の検定等の発展的な内容も扱えるだろう.加えて,BERT 等で分散表現を用いた研究も実施してみたい.
参考文献
- https://www.gutenberg.org/files/11/11-h/11-h.htm