LLMの言語獲得

LLMは人間と同じ方法で言語獲得をしているのか

ここ数年, Large Language Modelの性能が飛躍的に上がり様々なところで実用化されているが, 言語学の観点で議論になるのがLLMは人間と同じように言語を処理しているのかという点である.

Ziv, Lan, Chemla, and Katzir (2025)はこの観点で議論をした論文であるが, そこで非常に興味深いテーブルが提示されていたため引用したい. 次のテーブルは8つの言語モデルの訓練データサイズと, HartおよびRisleyの研究に倣って（こちらの研究内容はまだ私は確認できていない）, そのデータ量を人間の言語経験に換算した期間を表したものである.

Model	Train Dataset Size	Human Equivalent
CHILDES LSTM, Transformer	8.6 million tokens	10 months
BabyLM 10M	10 million tokens	1 year
Wikipedia Transformer	90 million tokens	8 years
BabyLM 100M	100 million tokens	9 years
bert-based-uncased	≈ 3.5 billion tokens	320 years
GPT2	≈ 8 billion tokens	730 years
llama3.2-3b	≈ 9 trillion tokens	821,250 years

（Ziv, Lan, Chemla, and Katzir 2025, p9)

これを見ると, （言葉を選ばずに言えば）実用化に足る性能とは全く言えないようなGPT2のモデルでも人間からすれば730年の時間が必要であると提示している.

あくまでこの結果での検討になるが, そうであるならやはり生得的な言語獲得装置のようなものを想定しなければ我々の言語獲得は説明できないであろう.

参考文献

Ziv, I., Lan, N., Chemla, E., & Katzir, R. (2025). Large Language Models as Proxies for Theories of Human Linguistic Cognition. arXiv preprint arXiv:2502.07687.

いいね:

関連

コメントを残すコメントをキャンセル

共有:

いいね:

関連

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル