RTX2080TI魔改卡+QWEN3.6-27B+MTP多TOKEN预测技术部署要点

一把老骨头发布于 2026-5-16 20:08 阅读：16 经验技巧

安装步骤：

1. 确保你在 llama.cpp 的根目录下

cd ~/llama.cpp

2. 直接拉取该 PR 的代码并创建本地分支 pr-22673

git fetch https://github.com/ggml-org/llama.cpp.git pull/22673/head:pr-22673

3. 切换到这个新分支

git checkout pr-22673

编译：
make -B build -DGGML_CUDA=ON \
-DCMAKE_CUDA_ARCHITECTURES="75" \
-DGGML_CUDA_F16=ON \
-DGGML_CUDA_FLASH_ATTN=OFF

执行编译：
cmake --build build --config Release -j$(nproc)

注意：
huggingface.co难以下载，要换成国内镜像，方法如下：
直接修改 llama.cpp 源码，把 HF 地址永久换成镜像
第一步：打开这个文件
运行
nano ~/llama.cpp/scripts/webui-download.cmake
第二步：找到这一行（大约在 20～40 行之间）
set(LLAMA_WEBUI_HF_BUCKET_URL "https://huggingface.co/buckets/ggml-org/llama-ui/resolve" CACHE STRING "URL for the WebUI bucket")
第三步：把里面的网址替换成国内镜像
改成：
set(LLAMA_WEBUI_HF_BUCKET_URL "https://hf-mirror.com/buckets/ggml-org/llama-ui/resolve" CACHE STRING "URL for the WebUI bucket")
第四步：保存退出
nano 按：
Ctrl+O → 回车 → Ctrl+X

可以执行的命令：
./build/bin/llama-server \
-m /data/models/qwen3.6-27b-mtp/Qwen3.6-27B-MTP-Q4_K_M.gguf \
--port 8000 \
--host 0.0.0.0 \
-t 8 \
--n-gpu-layers -1 \
-c 32768 \
--flash-attn on \
--spec-type draft-mtp \
--spec-draft-n-max 1 \
--cache-type-k q4_0 \
--cache-type-v q4_0 \
--no-warmup \
--prio 3