Alice in Wonderland におけるトライグラム
先日からAlice in Wonderland の分析を行なっている.
今回はトライグラム分析を行なってみた.トライグラムは連続する3個の単語の組み合わせを意味する.
以下に実行したコードと結果を示す.(前回のコードの続きであるという前提)
# 文単位で前処理されたテキスト
processed_documents = sentence_df['Sentence'].tolist()
# n-gramベクトル化(トライグラム)
vectorizer = CountVectorizer(ngram_range=(3, 3))
ngrams = vectorizer.fit_transform(processed_documents)
# n-gramの頻度を取得
ngram_freq = ngrams.toarray().sum(axis=0)
ngram_names = vectorizer.get_feature_names_out()
# 上位10のn-gramをプロット
top_n = 10
top_ngrams = pd.Series(ngram_freq, index=ngram_names).nlargest(top_n)
top_ngrams.plot(kind='bar', figsize=(10, 5))
plt.title('Top 10 Trigrams')
plt.xlabel('Trigrams')
plt.ylabel('Frequency')
plt.show()
参考文献
- https://www.gutenberg.org/files/11/11-h/11-h.htm