日本語の大規模コーパス


近年の言語学で, 非常に大きな役割を果たしているのが, 大規模な言語のデータセット, いわゆるコーパスである. これは, 実際に使われている言語表現を大量に集めたものであり, コーパスによってはより細かい情報(例えば品詞など)を含んだ形で整理され, 簡単に検索できたりダウンロードできたりする.

その中で, 今回は日本語の最大規模と言ってよいコーパスであるThe Balanced Corpus of Contemporary Written Japanese (BCCWJ)を含む『中納言』を紹介する.

URL:

https://chunagon.ninjal.ac.jp/

この『中納言』では, 様々なコーパスに対して簡単にかつ詳細な検索が可能である.

例えば, 2つの名詞を並置する等位構造を検索したい場合には, 次のような条件で抽出が可能である.

検索条件

  1. 前方共起
    • キーから1語前
    • 品詞:大分類 → 名詞
  2. キー
    • 「語彙素」が「と」
  3. 後方共起①
    • キーから1語後
    • 品詞:大分類 → 名詞
  4. 後方共起②
    1. キーから2語後
    2. 「語彙素」が「が」

また, 実際に操作してみるとわかるが, この検索結果に対して, さらに詳細な設定を踏まえた上で検索結果のダウンロードもできる.

言語研究において非常に便利なものであるので, 先人たちの偉業に感謝しながら利用していきたい.

参考文献

  • 国立国語研究所. (2025). 現代日本語書き言葉均衡コーパス(バージョン2021.03, 中納言バージョン2.7.3, 分類語彙表情報 2025.03). https://clrd.ninjal.ac.jp/bccwj/ (2025年8月27日確認)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です