日本語の大規模コーパス
近年の言語学で, 非常に大きな役割を果たしているのが, 大規模な言語のデータセット, いわゆるコーパスである. これは, 実際に使われている言語表現を大量に集めたものであり, コーパスによってはより細かい情報(例えば品詞など)を含んだ形で整理され, 簡単に検索できたりダウンロードできたりする.
その中で, 今回は日本語の最大規模と言ってよいコーパスであるThe Balanced Corpus of Contemporary Written Japanese (BCCWJ)を含む『中納言』を紹介する.
URL:
https://chunagon.ninjal.ac.jp/
この『中納言』では, 様々なコーパスに対して簡単にかつ詳細な検索が可能である.
例えば, 2つの名詞を並置する等位構造を検索したい場合には, 次のような条件で抽出が可能である.
検索条件
- 前方共起
- キーから1語前
- 品詞:大分類 → 名詞
- キー
- 「語彙素」が「と」
- 後方共起①
- キーから1語後
- 品詞:大分類 → 名詞
- 後方共起②
- キーから2語後
- 「語彙素」が「が」
また, 実際に操作してみるとわかるが, この検索結果に対して, さらに詳細な設定を踏まえた上で検索結果のダウンロードもできる.
言語研究において非常に便利なものであるので, 先人たちの偉業に感謝しながら利用していきたい.
参考文献
- 国立国語研究所. (2025). 現代日本語書き言葉均衡コーパス(バージョン2021.03, 中納言バージョン2.7.3, 分類語彙表情報 2025.03). https://clrd.ninjal.ac.jp/bccwj/ (2025年8月27日確認)