«

研究表明:顶级AI模型面临“幻觉”难题,准确性提升空间有限

一把老骨头 发布于 阅读:334 科技新闻


研究人员对十几种流行的模型进行了评估,包括Meta的Llama 3 70B、Mistral的Mixtral 8x22B、Cohere的Command R+以及通过API接口提供的Perplexity的Sonar Large(基于Llama)、Google的Gemini 1.5 Pro和Anthropic的Claude 3 Opus等模型。

这项最新的研究揭示了即便是最先进的人工智能模型也会出现“幻觉”,即输出错误或虚构的信息。从谷歌的Gemini到Anthropic的Claude,再到OpenAI最新发布的GPT-4o,这些生成式AI模型在不同程度上都会产生不准确的内容。

来自康奈尔大学、华盛顿大学、滑铁卢大学以及非营利研究机构AI2的研究人员进行了一项基准测试,旨在通过与权威资料比对来评估这些模型在法律、健康、历史和地理等多个领域的准确性。结果显示,没有任何一个模型在所有领域都表现出色,而那些“幻觉”较少的模型往往是因为它们对于无法准确回答的问题采取了回避的态度。

该研究的人员表示:“我们最重要的发现是目前还不能完全信赖这些模型生成的内容。即使是最好的模型也只有大约35%的时间能够无误地生成文本。”

为了使测试更具挑战性,研究人员特意选择了网络上没有维基百科参考答案的主题作为问题来源。超过一半的问题都无法直接从维基百科找到答案,这涵盖了文化、地理、天文学、流行文化、金融、医学、计算机科学和名人等广泛领域。

研究结果表明,尽管OpenAI、Anthropic等大型生成式AI公司声称有所改进,但模型的“幻觉”现象并未明显减少。GPT-4o与其前辈GPT-3.5在事实正确率方面表现相近,OpenAI的模型整体上产生的“幻觉”最少,其次是Mixtral 8x22B、Command R和Perplexity的Sonar模型。

涉及名人和金融领域的问题对模型来说最为棘手,而地理和计算机科学相关的问题则相对容易回答。当问题的答案来源不是维基百科时,所有模型的回答准确性均有所下降,特别是GPT-3.5和GPT-4o,这表明它们很大程度上依赖于维基百科的数据。

即使是能够搜索网络信息的模型,如Command R和Perplexity的Sonar模型,在面对非维基百科来源的问题时也显得力不从心。模型大小似乎并不是决定因素;较小的模型(例如Claude 3 Haiku)与较大、理论上更强大的模型(例如Claude 3 Opus)在产生“幻觉”的频率上相差不大。

一种可能的临时解决方案是让模型更多地选择不回答问题,这相当于技术上实现让自以为无所不知的系统闭嘴。在测试中,Claude 3 Haiku只回答了大约72%的问题,其余的选择了不作答。如果将这些不作答的情况考虑进去,Claude 3 Haiku实际上是最为准确的模型——至少在它说谎的次数最少这一点上是如此。

AI