分析コードのまとめていく.補足 タグの確認編
前回の 品詞タグ付けの頻度分布の際のコードでタグが出てきた.
EX, NN, VB, VBZ などである.
NN や VB はなんとなく察しがつくものもあるが,大半はあまり馴染みがない人もいるだろう.
これは今回使っているモジュールに元から設定されているタグである.
そのためモジュール内でタグの確認が可能だ.
タグ内容を確認したい場合は下記を実行.
import nltk
# 必要なnltkデータのダウンロード(初回実行時のみ)
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')
nltk.download('tagsets')
def list_pos_tags_info():
"""
品詞タグの一覧と説明を表示する関数
"""
nltk.download('tagsets') # これにより、必要なデータを確実にダウンロードします
nltk.help.upenn_tagset()
# 品詞タグの一覧と説明を表示
list_pos_tags_info()