ChatGPTは徐々に賢くなっているが幻覚は根深く広がっている

フィクションや歴史では、「優秀だが信用できない人物」がよく登場します。

この傾向はAIにも当てはまるかもしれません。OpenAIの調査によると、AIの「幻覚(ハルシネーション)」(事実でない情報や虚偽)は依然として多く見られます。

OpenAIはGPT o1が博士課程レベルの成績を出したと自負していましたが、最新モデルの結果は懸念材料となっています。

GPT o3やGPT o4-miniは、従来のモデルより軽量になる事を重視して設計されました。

GPT o3は有名人に関するテストで33%の確率で誤情報を出し、昨年のGPT o1の2倍の誤り率でした。

GPT o4-miniはさらに悪く、48%が誤答。一般知識を問うSimpleQAベンチマークでは、GPT o3が51%、GPT o4-miniは79%の確率で「幻覚」を出しました。

一部の研究者は、モデルが複雑な推論を行うほど誤りのリスクが増すと指摘します。

事実を基に推論する過程で、AIが即興的に情報を「創作」してしまうのです。

OpenAIは、誤りの増加はモデルの精度が落ちたのではなく、回答が冗長かつ冒険的になったためと説明しています。

予測可能な事実ではなく、可能性に基づいて回答を構成することで、現実と空想の境界が曖昧になるのです。

とはいえ、AIを「アシスタント」や「共同操縦者」と呼ぶには、誤情報は致命的です。

この状態で、今後AIが学校や企業、病院、行政機関などに広がれば、影響はさらに深刻化します。

AIが役立つほど、誤りが許されなくなります。

ユーザーが毎回確認作業をしなければならないなら、時短どころか手間が増えるだけです。

GPT o3の性能は驚異的ですが、「リンカーンがポッドキャストをやっていた」といった誤情報が一度でも出れば、信頼性は失われます。

ChatGPTは会議に必ずいる「うざい知ったかぶり」のように、自信満々で間違ったことを語ります。

現状の性能では、AIの回答は必ず疑ってかかるべきです。

おすすめの記事