分析コードをまとめていく.指示語の累積出現頻度編


前回に続いて,コードをまとめる.

今回はテキスト内の指示語の累積出現頻度にフォーカスをして分析をする.

import numpy as np

def plot_cumulative_deictic_word_frequency(text, deictic_words):
    """
    指示語の累積出現頻度をプロットする関数
    """
    tokens = nltk.word_tokenize(text)
    cumulative_counts = {word: np.zeros(len(tokens)) for word in deictic_words}

    for i, token in enumerate(tokens):
        for word in deictic_words:
            if token == word:
                cumulative_counts[word][i] = 1

    plt.figure(figsize=(12, 6))
    for word, counts in cumulative_counts.items():
        cumulative_counts[word] = np.cumsum(counts)
        plt.plot(cumulative_counts[word], label=word)

    plt.xlabel('Word Index')
    plt.ylabel('Cumulative Frequency')
    plt.title('Cumulative Frequency of Deictic Words')
    plt.legend()
    plt.show()

# 指示語の累積出現頻度のプロット
plot_cumulative_deictic_word_frequency(processed_text, deictic_words)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です