«

现在一个比一个能吹:谷歌称Gemma 3用单个GPU实现DeepSeek R1 98%的准确率

一把老骨头 发布于 阅读:177 经验技巧


根据谷歌的说法,通过利用神经网络的“精华”,Gemma 3不仅在准确性上接近DeepSeek的R1,而且在计算资源需求方面远低于后者。具体来说,为了达到类似的Elo评分(一种用于对国际象棋选手进行排名的方法),DeepSeek的R1需要32个NVIDIA H100 GPU芯片,而Gemma 3只需一个H100 GPU即可。

谷歌在其博客文章中指出,Gemma 3是“你可以在单个GPU或TPU上运行的最强大的模型”。此外,尽管参数数量相对较少(从10亿到270亿不等),Gemma 3仍在多个基准测试中表现出色,超越了包括Meta的Llama 3在内的多个竞争对手。

Gemma 3的成功部分归功于一种称为蒸馏的技术,该技术允许从小型模型中提取更大、更复杂的模型的知识,从而提高效率而不牺牲太多性能。此外,谷歌还采用了多种强化学习方法来进一步提升模型的安全性和实用性。

值得注意的是,Gemma 3相比其前代产品,在上下文窗口长度上有显著增加,支持处理多达128000个令牌,使其更适合处理长篇文档。同时,Gemma 3还增加了多模态处理能力,能够理解图像输入,并支持超过140种语言。

总之,谷歌的Gemma 3展示了如何在保持高性能的同时大幅降低计算成本,为未来的人工智能开发提供了一个新的方向。

deepseek GEMMA3