Alice in Wonderland におけるトライグラム


先日からAlice in Wonderland の分析を行なっている.

今回はトライグラム分析を行なってみた.トライグラムは連続する3個の単語の組み合わせを意味する.

以下に実行したコードと結果を示す.(前回のコードの続きであるという前提)

# 文単位で前処理されたテキスト
processed_documents = sentence_df['Sentence'].tolist()

# n-gramベクトル化(トライグラム)
vectorizer = CountVectorizer(ngram_range=(3, 3))
ngrams = vectorizer.fit_transform(processed_documents)

# n-gramの頻度を取得
ngram_freq = ngrams.toarray().sum(axis=0)
ngram_names = vectorizer.get_feature_names_out()

# 上位10のn-gramをプロット
top_n = 10
top_ngrams = pd.Series(ngram_freq, index=ngram_names).nlargest(top_n)
top_ngrams.plot(kind='bar', figsize=(10, 5))
plt.title('Top 10 Trigrams')
plt.xlabel('Trigrams')
plt.ylabel('Frequency')
plt.show()

参考文献

  • https://www.gutenberg.org/files/11/11-h/11-h.htm

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です