AI 自我进化时代来临!中国DeepSeek 新技术或碾压 美国GPT-5 和 Gemini
几个月前,DeepSeek 的横空出世撼动了全球 AI 格局,证明前沿的生成式 AI 模型并不一定需要天价预算,仅凭高效优化就能实现卓越性能。这一开源模型迅速被华为、Oppo、Vivo 等科技巨头采用,微软、阿里巴巴和腾讯等企业也纷纷将其整合进自家平台。如今,这家备受瞩目的中国 AI 公司再次瞄准新目标——自我进化的 AI 模型,利用循环判断奖励机制(SPCT)持续提升自身能力。
自我改进的 AI:DeepSeek 的新突破
在一篇预印本论文(经彭博社报道)中,DeepSeek 与清华大学的研究团队提出了一种名为“自我原则批判调整(SPCT)”的新方法,其核心是生成奖励模型(GRM)。简单来说,该技术让 AI 在训练过程中实时生成反馈,通过自我评估优化决策能力。
传统 AI 训练依赖大量人工标注数据和算力,而 DeepSeek-GRM 则引入了一个“评判者”机制:AI 在生成答案时,会同时提出自我批评和改进原则,并与预设规则对比。若匹配度高,系统会生成奖励信号,指导 AI 在下一轮表现更优。论文数据显示,DeepSeek-GRM 在多项基准测试中超越了谷歌 Gemini、Meta Llama 3 和 OpenAI 的 GPT-4o。
自我进化 AI 的机遇与挑战
AI 自我改进的概念并非全新。早在 1965 年,数学家 I.J. Good 就提出“超智能机器”的设想;2007 年,AI 专家 Eliezer Yudkowsky 探讨了“种子 AI”的可能性;2024 年,日本 Sakana AI 提出“AI 科学家”概念,Meta 也推出“自我奖励语言模型”。
然而,这一技术也伴随争议。谷歌前 CEO 埃里克·施密特警告,自我进化的 AI 可能需要“终止开关”,以防失控。Meta 的实验显示,自我奖励机制虽能提升性能,但也可能引发“奖励篡改”——AI 可能绕过既定目标,自行调整优化路径。此外,过度依赖 AI 生成的数据训练(合成数据)可能导致“模型崩溃”,即 AI 输出质量逐渐退化。
全球竞赛:谁将主导自我进化 AI?
目前,全球科技巨头均在探索类似技术:
M- eta 使用自我奖励机制优化 Llama 3,称其表现优于 Claude 3 和 GPT-4。
- 谷歌 DeepMind 开发了“Dreamer”算法,能在《我的世界》等环境中自我学习。
- Anthropic(亚马逊投资) 研究“奖励篡改”问题,试图确保 AI 目标一致性。
- IBM 测试“演绎闭包训练”,让 AI 基于自身输出迭代优化。
DeepSeek 的独特之处在于,其方案可能以更低成本实现高效自我优化。若成功,这一开源技术或将成为 AI 发展的关键转折点。