«

最新研究显示AI搜索引擎错误率高达60%

一把老骨头 发布于 阅读:215 经验技巧


研究报告指出,人工智能搜索引擎在准确性测试中表现不佳,错误率高达60%。这项由数字新闻中心进行的研究揭示了当前AI搜索引擎面临的挑战,并强调了开发人员需进一步努力克服幻觉和错误信息的问题。

研究背景与方法
研究团队选择了八个主流AI搜索引擎进行测试,包括ChatGPT搜索、Perplexity、Perplexity Pro、Gemini、DeepSeek搜索、Grok-2搜索、Grok-3搜索以及Copilot。他们从20家新闻出版商中随机选取了200篇新闻文章(每家10篇),并通过谷歌搜索验证了这些文章的相关性。然后,在每个AI搜索引擎中执行相同的查询,并基于是否正确引用了文章、新闻机构及URL来评估其准确性。

研究发现
结果显示,除了两个版本的Perplexity外,大多数AI搜索引擎表现不佳,整体错误率达到60%。值得注意的是,即使是表现最好的Grok-3搜索也仅有94%的准确率。相比之下,ChatGPT搜索虽然回答了所有200篇文章的查询,但其完全准确率仅为28%,而57%的回答完全不准确。

此外,微软的Copilot虽然拒绝回答了104个问题,但在剩下的96个问题中,仅16个被评为“完全正确”,14个为“部分正确”,而66个则为“完全不正确”。这意味着大约70%的回答是不准确的。

行业反应与用户反馈
尽管如此,仍有一些用户对某些AI工具表示满意。TechRadar的兰斯·乌兰诺夫(Lance Ulanoff)在体验过ChatGPT搜索后,认为它快速、有意识且准确,拥有一个干净无广告的界面,甚至考虑不再使用谷歌。

然而,批评者指出,制造这些工具的公司并未对其产品的低准确性保持透明,尽管公众每月支付20至200美元获取最新的人工智能模型。例如,Performance Pro(每月20美元)和Grok-3搜索(每月40美元)相较于免费版本虽略胜一筹,但其高错误率仍然显著。

AI