Alice in Wonderland における “the”の出現回数.
先日からAlice in Wonderland の分析を行なっている.
今回はシンプルに“the”の出現回数を小説のパートごとに切り分けてみた.
本来ならChapter ごとに切り分けるべきだが,まず簡単な実験レベルとして小説全体を 3000 単語ずつの8パートに切り分けるというシンプルな試行を実施してみた.
すると,後半につれて“the”の出現回数が増えていった.
以下に実行したコードと結果を示す.(前回のコードの続きであるという前提)
import pandas as pd
import matplotlib.pyplot as plt
# カラム名の確認
data = df.copy()
# 3000単位ごとにデータを分割して1の出現頻度を計算
window_size = 3000
num_windows = len(data) // window_size
ones_distribution = [
data.iloc[i * window_size:(i + 1) * window_size]['Occurrence'].sum()
for i in range(num_windows)
]
# 残りのデータがある場合、それを最後のウィンドウとして追加
if len(data) % window_size != 0:
ones_distribution.append(data.iloc[num_windows * window_size:]['Occurrence'].sum())
# 結果をプロット
plt.figure(figsize=(14, 7))
plt.bar(range(len(ones_distribution)), ones_distribution)
plt.xlabel('Window Index (3000 elements each)')
plt.ylabel('Count of Occurrence = 1')
plt.title('Distribution of Occurrence = 1 in 3000-element Windows')
plt.show()
参考文献
- 田中久美子 (2021)『言語とフラクタル-使用の集積の中にある偶然と必然-』 東京大学出版会.
- https://www.gutenberg.org/files/11/11-h/11-h.htm