最新研究显示AI搜索引擎错误率高达60%

一把老骨头发布于 2025-3-19 08:01 阅读：473 经验技巧

研究报告指出，人工智能搜索引擎在准确性测试中表现不佳，错误率高达60%。这项由数字新闻中心进行的研究揭示了当前AI搜索引擎面临的挑战，并强调了开发人员需进一步努力克服幻觉和错误信息的问题。

研究背景与方法
研究团队选择了八个主流AI搜索引擎进行测试，包括ChatGPT搜索、Perplexity、Perplexity Pro、Gemini、DeepSeek搜索、Grok-2搜索、Grok-3搜索以及Copilot。他们从20家新闻出版商中随机选取了200篇新闻文章（每家10篇），并通过谷歌搜索验证了这些文章的相关性。然后，在每个AI搜索引擎中执行相同的查询，并基于是否正确引用了文章、新闻机构及URL来评估其准确性。

研究发现
结果显示，除了两个版本的Perplexity外，大多数AI搜索引擎表现不佳，整体错误率达到60%。值得注意的是，即使是表现最好的Grok-3搜索也仅有94%的准确率。相比之下，ChatGPT搜索虽然回答了所有200篇文章的查询，但其完全准确率仅为28%，而57%的回答完全不准确。

此外，微软的Copilot虽然拒绝回答了104个问题，但在剩下的96个问题中，仅16个被评为“完全正确”，14个为“部分正确”，而66个则为“完全不正确”。这意味着大约70%的回答是不准确的。

行业反应与用户反馈
尽管如此，仍有一些用户对某些AI工具表示满意。TechRadar的兰斯·乌兰诺夫（Lance Ulanoff）在体验过ChatGPT搜索后，认为它快速、有意识且准确，拥有一个干净无广告的界面，甚至考虑不再使用谷歌。

然而，批评者指出，制造这些工具的公司并未对其产品的低准确性保持透明，尽管公众每月支付20至200美元获取最新的人工智能模型。例如，Performance Pro（每月20美元）和Grok-3搜索（每月40美元）相较于免费版本虽略胜一筹，但其高错误率仍然显著。