«

外媒:中国证明开放模型比全球所有GPU都更有效

一把老骨头 发布于 阅读:12 科技新闻


自GPT-2之后,OpenAI推迟了其承诺的开放权重模型发布,而中国在人工智能开放模型方面已然占据明显领先地位。

本周,OpenAI原本计划兑现承诺,推出自GPT-2以来的首个开放权重模型。然而,首席执行官萨姆·奥尔特曼称,由于安全审查,这一有望成为美国今年首个较为出色的开放模型不得不推迟发布。奥尔特曼在X平台发文解释:“虽然我们相信社区会用这个模型创造出伟大的成果,但权重一旦发布,就无法撤回。这对我们来说是新的情况,我们希望把它做好。”这一推迟让美国在人工智能开放模型领域的处境略显尴尬。

尽管美国在GPU方面投入了巨额资金,高达数千亿美元,但今年到目前为止,美国表现最好的开放模型Meta的Llama 4却不尽如人意,不仅反响平平,还争议不断。就在本周,有消息传出,Meta那个拥有两万亿参数的模型,因未能达到预期效果,似乎已被弃之不用。

美国其他一些公司也推出了开放模型。微软推出了Phi-4 14B版本,它通过强化学习训练,具备推理功能;IBM发布了一些专注于智能体工作负载的微型大语言模型;谷歌的Gemma3系列是多模态模型,参数最多达270亿。但与Meta的Llama 4 Maverick(拥有4000亿参数)相比,这些模型在规模和性能上都有较大差距。目前,美国公司在生成式人工智能开发方面的许多重要成果都被封闭起来,外界只能通过调用他人服务器的API来访问,这在一定程度上限制了技术的广泛传播和创新。

中国人工智能开放模型发展势头强劲
与美国形成鲜明对比的是,中国在人工智能开放模型领域持续发力,取得了显著进展。正如英伟达首席执行官所指出的,全球一半的人工智能研究人员来自中国,这为中国人工智能的发展提供了强大的智力支持。

2025年初,此前不太为人所知的DeepSeek公司(脱胎于中国量化对冲基金幻方量化)发布了R1模型,引起了广泛关注。这款拥有6710亿参数的大语言模型采用了新颖的专家混合(MoE)架构。与规模更小的大语言模型如Llama 3.1 405B相比,R1模型在消耗更少资源的情况下,运行速度更快,同时还能复制OpenAI最新o1模型的推理功能。

更值得一提的是,DeepSeek不仅公开了该模型的权重,还发布了详细的技术文档,展示了模型的开发过程。这一开放举措产生了积极的影响,仅仅几周后,西方开发者就开始借鉴这些技术,为自己的模型赋予推理能力。

此后,中国企业在人工智能开放模型领域不断推陈出新。阿里巴巴推出了一系列新的推理和专家混合模型,包括QwQ、Qwen3-235B-A22B和30B-A3B,这些模型在性能和应用场景上都有所拓展。

6月,总部位于上海的MiniMax在宽松的Apache 2.0软件许可证下发布了M1模型,该模型拥有4560亿参数。M1模型具有显著的特点,其上下文窗口可容纳一百万标记,同时还采用了新的注意力机制,有助于更好地跟踪和处理这些标记。

同月,百度开源了其Ernie系列专家混合模型,参数规模从470亿到4240亿不等,为不同规模和需求的应用提供了更多选择。华为也开源了其基于内部加速器训练的盘古模型,不过该发布很快就被欺诈指控所掩盖,这也提醒人们在技术发展过程中要注重诚信和规范。

到了7月,月之暗面公司揭开了Kimi 2的神秘面纱。这是一款拥有1万亿参数的专家混合模型,该公司声称其性能甚至超越了西方最强大的专有大语言模型。虽然对于这些说法需要保持谨慎态度,但不可否认的是,中国已经成功开发出了拥有1万亿参数的开放权重模型,而美国目前最接近这一水平的大语言模型都是专有的。这一成就的取得,是在美国试图通过各种手段限制中国在人工智能领域发展的情况下实现的,更凸显了中国在人工智能领域的强大实力和自主创新能力。

美国部分企业开放策略生变,未来走向存疑
就在OpenAI准备发布六年来首个开放模型之际,美国一些企业在人工智能开放策略上出现了变化。据报道,在新的昂贵超级智能实验室的指导下,Meta可能会放弃对开源的承诺,转而采用封闭模型。这一转变如果成真,将对美国人工智能开放生态产生一定的影响。

从表面上看,埃隆·马斯克支持的初创公司xAI似乎已经走上了封闭之路。其Grok系列大语言模型原本计划在新版本发布时开源上一个模型的权重。虽然xAI在Grok-2发布时确实发布了Grok-1,但Grok-3自2月发布以来,在Hugging Face平台上的更新和活跃度较低,给人一种逐渐封闭的感觉。

此外,有消息称xAI的Grok模型存在一些争议性问题,比如有爱好是扮演机械希特勒的情况。这不仅引发了伦理和道德方面的质疑,也可能影响到模型的应用和推广。如果美国企业纷纷转向封闭模型,将不利于人工智能技术的全球共享和创新,也可能使美国在人工智能开放模型领域的竞争力进一步下降。

美国OpenAI新模型备受期待,但前景不明
回到OpenAI承诺的开放权重模型,目前除了奥尔特曼在X平台、公开采访和国会听证会上分享的一些信息外,外界对该模型了解甚少。奥尔特曼在2月发起了一项调查,询问粉丝希望OpenAI的下一个开源项目是什么,最终o3-mini级别大语言模型胜出。

然而,在6月,OpenAI首次推迟了该模型的发布。奥尔特曼解释称研究团队取得了出人意料且非常了不起的成果,需要更多时间来完善。虽然OpenAI在模型开发方面一直处于领先地位,但此次推迟发布以及信息的不透明,让人们对该模型的最终表现充满疑问。

OPENAI deepseek CHATGPT qwen