Alice in Wonderland における “the”の出現回数.


先日からAlice in Wonderland の分析を行なっている.

今回はシンプルに“the”の出現回数を小説のパートごとに切り分けてみた.

本来ならChapter ごとに切り分けるべきだが,まず簡単な実験レベルとして小説全体を 3000 単語ずつの8パートに切り分けるというシンプルな試行を実施してみた.

すると,後半につれて“the”の出現回数が増えていった.

以下に実行したコードと結果を示す.(前回のコードの続きであるという前提)

import pandas as pd
import matplotlib.pyplot as plt



# カラム名の確認
data = df.copy()

# 3000単位ごとにデータを分割して1の出現頻度を計算
window_size = 3000
num_windows = len(data) // window_size

ones_distribution = [
    data.iloc[i * window_size:(i + 1) * window_size]['Occurrence'].sum()
    for i in range(num_windows)
]

# 残りのデータがある場合、それを最後のウィンドウとして追加
if len(data) % window_size != 0:
    ones_distribution.append(data.iloc[num_windows * window_size:]['Occurrence'].sum())

# 結果をプロット
plt.figure(figsize=(14, 7))
plt.bar(range(len(ones_distribution)), ones_distribution)
plt.xlabel('Window Index (3000 elements each)')
plt.ylabel('Count of Occurrence = 1')
plt.title('Distribution of Occurrence = 1 in 3000-element Windows')
plt.show()

参考文献

  • 田中久美子 (2021)『言語とフラクタル-使用の集積の中にある偶然と必然-』 東京大学出版会.
  • https://www.gutenberg.org/files/11/11-h/11-h.htm

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です