
フィクションや歴史では、「優秀だが信用できない人物」がよく登場します。
この傾向はAIにも当てはまるかもしれません。OpenAIの調査によると、AIの「幻覚(ハルシネーション)」(事実でない情報や虚偽)は依然として多く見られます。
OpenAIはGPT o1が博士課程レベルの成績を出したと自負していましたが、最新モデルの結果は懸念材料となっています。
GPT o3やGPT o4-miniは、従来のモデルより軽量になる事を重視して設計されました。
GPT o3は有名人に関するテストで33%の確率で誤情報を出し、昨年のGPT o1の2倍の誤り率でした。
GPT o4-miniはさらに悪く、48%が誤答。一般知識を問うSimpleQAベンチマークでは、GPT o3が51%、GPT o4-miniは79%の確率で「幻覚」を出しました。
一部の研究者は、モデルが複雑な推論を行うほど誤りのリスクが増すと指摘します。
事実を基に推論する過程で、AIが即興的に情報を「創作」してしまうのです。
OpenAIは、誤りの増加はモデルの精度が落ちたのではなく、回答が冗長かつ冒険的になったためと説明しています。
予測可能な事実ではなく、可能性に基づいて回答を構成することで、現実と空想の境界が曖昧になるのです。
とはいえ、AIを「アシスタント」や「共同操縦者」と呼ぶには、誤情報は致命的です。
この状態で、今後AIが学校や企業、病院、行政機関などに広がれば、影響はさらに深刻化します。
AIが役立つほど、誤りが許されなくなります。
ユーザーが毎回確認作業をしなければならないなら、時短どころか手間が増えるだけです。
GPT o3の性能は驚異的ですが、「リンカーンがポッドキャストをやっていた」といった誤情報が一度でも出れば、信頼性は失われます。
ChatGPTは会議に必ずいる「うざい知ったかぶり」のように、自信満々で間違ったことを語ります。
現状の性能では、AIの回答は必ず疑ってかかるべきです。