言語モデルはまず「事前学習(pretraining)」という段階で、インターネット上の大量の文章を読み込みます。
しかし目的は「正しい知識を覚えること」ではなく、次に来る単語を予測すること。
つまりAIは、「本当のことを知る」よりも「自然に聞こえる文章を作る」ことに最適化されているのです。
そのため、知らないことを聞かれても、それっぽい答えを作り出してしまうことがあります。
AIは学習の過程で、「質問に対して答えを出すこと」が評価される仕組みになっています。
「わかりません」と答えるよりも、何か答えたほうが点数が高くなる ように設計されているのです。
その結果、自信がなくても「ありそうな答え」を出してしまう。
これがハルシネーションの大きな原因の一つです。
AIは多くの知識を扱える一方で、「その情報が本当に正しいか」を判断する仕組みがまだ未熟です。
訓練データに間違った情報が含まれていたり、そもそも判断材料が少ない場合、
AIは確率的に最も自然な答えを選びますが、それが誤りになることがあります。
ハルシネーションを完全に防ぐのは難しいですが、
情報源をAIに明示させる(例:「〜によると〜」)
外部データベースと照合する
「わからない」と答えられる設計にする
といった工夫で、減らすことはできます。
AIは知っているように見せるのが得意ですが、実際には「確率的に文章を組み立てている」にすぎません。
ハルシネーションは、AIが「正しさ」ではなく「自然さ」に最適化されていることから生まれる、
いわば構造的な宿命だということが分かります。