Alice in Wonderland における文章の長さの分布.


先日からAlice in Wonderland の分析を行なっている.

今回は文章の長さがどのように構成されているのかを調査した.

以下に実行したコードと結果を示す.(前回のコードの続きであるという前提)

# 文の長さの分布をヒストグラムで可視化
plt.figure(figsize=(10, 6))
sns.histplot(sentence_df['Word_Count'], bins=50, kde=True)
plt.title('Histogram and KDE of Sentence Lengths')
plt.xlabel('Word Count')
plt.ylabel('Frequency')
plt.show()

明らかに外れ値もあるが,基本的には1文は25 単語以下の構成を持つことが分かる.とりわけ多くの文が10単語以下に集中しており、これは多くの文が短い文であることを示している.

ここからさらに短い文と長い文の特徴や,この分布の特性の検定等の発展的な内容も扱えるだろう.加えて,BERT 等で分散表現を用いた研究も実施してみたい.

参考文献

  • https://www.gutenberg.org/files/11/11-h/11-h.htm

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です