文化庁の文化審議会国語分科会は17日、日常で使われる言葉を体系的に集めたデータベースの継続的な整備を求める提言をまとめた。生成AI(人工知能)により様々な文章が混在する中、信頼できる言語データベースが求められているためだ。
文化庁
このデータベースは国立国語研究所が開発し、インターネット上で公開している「言語コーパス」。主に書籍や新聞、教科書などで使用された約1億語が収録されているが、予算不足や作業量が膨大なことから、昨年度までの20年間分のデータが未収録となっていた。
提言では、生成AIが生み出した文章や、人間と生成AIがやりとりした文章、生成AIの影響を受けて作成された文章が混在していくと指摘。文章の品質をいかに保持していくかを課題とした。
コーパスは期間を区切って言語を収集しており、言語の変化を見るためにも、継続的に言語を収集する必要があると強調。「未来へ伝える文化遺産」としての価値を持つと位置づけた。
文化庁は今年度から過去20年間分を追加し、2億語まで拡充している。
