«

外媒测试DeepSeek:R1和V3编程能力能否胜过ChatGpt

一把老骨头 发布于 阅读:343 科技新闻


DeepSeek的R1和V3编程能力究竟如何?这款来自中国的开源AI聊天机器人是否能在竞争激烈的AI领域中脱颖而出?尽管其基础设施远不如一些竞争对手,但它在编程测试中的表现却令人刮目相看。

测试1:编写一个WordPress插件
DeepSeek V3成功通过了这一测试,完全按照要求创建了一个用户界面和程序逻辑。而R1虽然也通过了测试,但其“推理”部分输出了长达4502字的分析,显得冗长且复杂。尽管如此,两款模型最终都完成了任务,展现了强大的编程能力。

测试2:重写一个字符串函数
在这个测试中,DeepSeek V3生成了有效的代码,尽管还有改进空间。然而,R1的表现则稍显逊色,它生成的代码存在潜在崩溃风险,尤其是在处理非字符串输入时。因此,V3在这项测试中胜出,而R1未能通过。

测试3:找到一个烦人的bug
这项测试需要深入理解WordPress API调用的工作原理,并能超越错误信息看到代码本身。DeepSeek V3和R1均以几乎相同的方式解决了问题,再次证明了它们的实力。

测试4:编写一个脚本
这是最具挑战性的测试之一,涉及AppleScript、Chrome对象模型和Keyboard Maestro之间的交互。遗憾的是,DeepSeek V3和R1都未能成功完成任务。两者对这些工具的理解较为薄弱,尤其是对Keyboard Maestro的支持不足。

最终感想
总体而言,DeepSeek V3的表现优于R1,在四个测试中赢得了三个,而R1只通过了两个测试。尽管如此,DeepSeek的编程能力仍值得肯定,尤其是在基础设施有限的情况下。不过,其代码生成有时过于冗长,且存在一些小瑕疵。

值得注意的是,DeepSeek作为一款全新的开源工具,运行在较低的基础设施上,却展现出了与一些知名AI工具媲美的潜力。虽然它可能还未达到顶级水平,但其进步空间巨大,未来可期。





deepseek