分析コードをまとめていく.指示語の出現頻度と位置編


前回に続いて,コードをまとめる.

今回はテキスト内の指示語の出現頻度と位置にフォーカスをして分析をする.

import matplotlib.pyplot as plt
import nltk

nltk.download('punkt')

def plot_deictic_word_positions(text, deictic_words):
    """
    指示語の出現頻度と位置をプロットする関数
    """
    tokens = nltk.word_tokenize(text)
    positions = {word: [] for word in deictic_words}

    for i, token in enumerate(tokens):
        if token in deictic_words:
            positions[token].append(i)

    plt.figure(figsize=(12, 6))
    for word, pos in positions.items():
        plt.plot(pos, [word]*len(pos), '|', markersize=10, label=word)

    plt.xlabel('Word Index')
    plt.ylabel('Deictic Words')
    plt.title('Deictic Word Positions in Text')
    plt.legend()
    plt.show()

# 指示語のリスト
deictic_words = ['this', 'that', 'these', 'those', 'here', 'there']

# 指示語の出現頻度と位置のプロット
plot_deictic_word_positions(processed_text, deictic_words)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です