外媒测试DeepSeek：R1和V3编程能力能否胜过ChatGpt

一把老骨头发布于 2025-2-20 08:07 阅读：521 科技新闻

DeepSeek的R1和V3编程能力究竟如何？这款来自中国的开源AI聊天机器人是否能在竞争激烈的AI领域中脱颖而出？尽管其基础设施远不如一些竞争对手，但它在编程测试中的表现却令人刮目相看。

测试1：编写一个WordPress插件
DeepSeek V3成功通过了这一测试，完全按照要求创建了一个用户界面和程序逻辑。而R1虽然也通过了测试，但其“推理”部分输出了长达4502字的分析，显得冗长且复杂。尽管如此，两款模型最终都完成了任务，展现了强大的编程能力。

测试2：重写一个字符串函数
在这个测试中，DeepSeek V3生成了有效的代码，尽管还有改进空间。然而，R1的表现则稍显逊色，它生成的代码存在潜在崩溃风险，尤其是在处理非字符串输入时。因此，V3在这项测试中胜出，而R1未能通过。

测试3：找到一个烦人的bug
这项测试需要深入理解WordPress API调用的工作原理，并能超越错误信息看到代码本身。DeepSeek V3和R1均以几乎相同的方式解决了问题，再次证明了它们的实力。

测试4：编写一个脚本
这是最具挑战性的测试之一，涉及AppleScript、Chrome对象模型和Keyboard Maestro之间的交互。遗憾的是，DeepSeek V3和R1都未能成功完成任务。两者对这些工具的理解较为薄弱，尤其是对Keyboard Maestro的支持不足。

最终感想
总体而言，DeepSeek V3的表现优于R1，在四个测试中赢得了三个，而R1只通过了两个测试。尽管如此，DeepSeek的编程能力仍值得肯定，尤其是在基础设施有限的情况下。不过，其代码生成有时过于冗长，且存在一些小瑕疵。

值得注意的是，DeepSeek作为一款全新的开源工具，运行在较低的基础设施上，却展现出了与一些知名AI工具媲美的潜力。虽然它可能还未达到顶级水平，但其进步空间巨大，未来可期。