自然言語処理技術を用いた言語学。
近年、コンピュータ技術の発達とその資源の増加によって、従来では実現し得なかった新しい分析方法が次々と提案されている。 とりわけ人間の言語を扱うような自然言語処理の分野は飛躍的な進化を遂げ様々な分野で応用が進んでいる(
chatGPTはその代表例だろう)。当然その潮流は言語学にも及び、新しい研究方法が試されており続々と成果を上げている。
これらの鍵となったのが分散表現と言う技術だ。
これは単語を高次元のベクトルに置き換えると言う技術を活用している。
単語をベクトルに置き換えると言うのはなかなか想像がつきづらいので噛み砕いて考えてみたい。
単語には、それぞれ使い方に特徴がある。
例えば、「犬」と言う単語と「わんわん」と言う単語は、同じ文章で使われる確率が高いだろう。 そして、その単語が使われる位置や「犬」と「わんわん」と言う単語の間の距離といったものも、統計的な特徴が出せる。 こういった特徴を踏まえてその単語の特徴量と言うものを抽出する。
ここで抽出されたものがベクトルと言う形で表示されるため、自然言語処理では単語を高次元のベクトルに置き換えると言うことが可能になる。
参考文献
- GPT-3 完全初心者への徹底解説: 最強の文章生成AIの実像
https://www.amazon.co.jp/GPT-3-%E5%AE%8C%E5%85%A8%E5%88%9D%E5%BF%83%E8%80%85%E3%81%B8%E3%81%AE%E5%BE%B9%E5%BA%95%E8%A7%A3%E8%AA%AC-%E6%9C%80%E5%BC%B7%E3%81%AE%E6%96%87%E7%AB%A0%E7%94%9F%E6%88%90AI%E3%81%AE%E5%AE%9F%E5%83%8F-%E7%99%BD%E8%BE%BA-%E9%99%BD-ebook/dp/B098M6JN3L