Meta祭出Llama 4双模型:单GPU可跑,号称比OpenAI更政治中立
4月7日,Meta正式推出其Llama 4系列的首两款混合专家(MoE)模型——Llama 4 Scout(170亿活跃参数,16位专家)和Llama 4 Maverick(170亿活跃参数,128位专家)。这两款模型均基于仍在训练中的Llama 4“巨兽”架构(2880亿参数,16位专家),Meta声称其训练数据规模远超Llama 3,包含超过30万亿token,涵盖文本、图像和视频数据。
MoE架构优势
混合专家(MoE)技术通过将任务分解并分配给不同神经网络子系统,以更高效的方式提升模型性能。类似技术已被DeepSeek-V3、Mistral.ai的Mixtral 8x7B采用,而OpenAI虽未明确承认,但外界普遍猜测其下一代模型也将采用MoE。Meta此次发布的Llama 4 Scout专为单GPU(如NVIDIA H100)优化,而Maverick则面向更高负载场景。
训练技术创新
Meta表示,其新开发的MetaP训练技术可动态调整模型超参数(如学习率、初始化规模),并支持200种语言的预训练,其中100多种语言的训练数据超过10亿token,多语言处理能力较Llama 3提升10倍。不过,Meta仍未公开训练数据的具体来源,此前该公司曾因涉嫌使用盗版内容训练模型而面临法律纠纷。
政治立场“去左倾化”
Meta特别强调,Llama 4在政治和社会议题上“显著减少左翼倾向”,能更平衡地回应争议性问题,且响应速度接近X AI的Grok,是Llama 3.3的两倍。该公司将此前LLM的“左倾”归因于互联网训练数据的固有偏见,并表示已通过调整数据分布和优化提示工程来降低模型的政治倾向性。
安全性与开源争议
为确保模型安全性,Meta推出“生成式对抗测试(GOAT)”,通过模拟多轮对抗交互,更高效地识别漏洞。此外,Llama 4模型已开放下载(Hugging Face、Meta官网),但开源倡议组织(OSI)指出,欧盟用户的部分权限受限,因此该模型“并非真正开源”。