只需7万人民币!清华开源工具打破AI大模型高昂门槛,不需要H100,只需RTX 4090D
清华大学人工智能团队近期对开源项目KTransformers进行了重大更新,成功实现了在低成本硬件上运行全功能的DeepSeek-R1和V3 671B版本。通过仅配备24GB VRAM的RTX 4090D GPU,用户可以在本地环境中以每秒286个标记的速度预处理数据,并达到每秒14个标记的推理生成速度。
这一突破性进展解决了当前AI大模型依赖昂贵云服务器的问题。传统上,用户需要租用价格高昂的NVIDIA A100/H100服务器才能运行完整的DeepSeek-R1模型,而这些服务器的成本可能高达28万美元。相比之下,使用KTransformers方案的总成本仅为不到1万美元(约7万元人民币),大幅降低了部署门槛。
KTransformers的核心优势在于其优化技术,包括异构计算、高级量化和稀疏注意力机制,这些技术显著提高了计算效率并支持长上下文序列的处理。然而,该方案也存在一些限制:推理速度不及高端服务器,且一次只能服务于单一用户;此外,目前的解决方案主要依赖英特尔的AMX指令集,其他品牌的CPU尚无法兼容。
为了部署KTransformers,用户需要准备以下硬件配置:Intel Xeon Gold 6454S CPU(带1TB DRAM的NUMA节点)、RTX 4090D GPU(24GB VRAM)、1TB DDR5-4800服务器内存以及CUDA 12.1或更高版本。
背景方面,DeepSeek-R1自1月20日发布以来备受关注,其定价为每百万输入令牌0.14美元(缓存命中)至0.55美元(缓存未命中),输出令牌则为每百万2.21美元,成本仅为OpenAI GPT-4的1/30。这标志着AI行业正朝着更加全球化、开源化和成本高效的方向发展。