The power of noise.
以前の投稿でRAGという、文章検索と組み合わせたLLMの技術を紹介した. こういった技術につきまとう問題が精度の問題である. 機械学習全般に言えることであるが、この精度をいかに上げるかは永遠の課題だろう.
その中で、RAGの参照元に全く関係のない文章を持たせると精度が上がるという研究が発表されたので紹介する. Cuconasu et al. (2024) によれば、クエリに直接関連しないランダムな文書を組み込むことが、予想外にも精度の向上に寄与するという報告がなされた. これは、情報検索の領域において伝統的なアプローチとは異なり、情報の「ノイズ」が意外な形でLLMの性能を向上させる可能性を示している.
従来の学習データだけでなく、無作為に選ばれた文書をプロンプトに加える方法が試された. その結果、ランダムな文書を追加した場合に最大で35%の精度向上が観測され、この反直感的な結果がRAGシステムのさらなる研究と開発の道を開いた.
LLM は技術としても発展途上であるが,その仕組みの研究自体もまだ途上であるという点が非常に面白い.また,その研究過程で人間の言語能力に関する示唆を得られるかもしれない.
Cuconasu, F., Trappolini, G., Siciliano, F., Filice, S., Campagnano, C., Maarek, Y., … & Silvestri, F. (2024, July). The power of noise: Redefining retrieval for RAG systems. In Proceedings of the 47th International ACM SIGIR Conference on Research and Development in Information Retrieval (pp. 719-729).