RTX2080TI魔改卡+QWEN3.6-27B+MTP多TOKEN预测技术部署要点

一把老骨头 发布于 阅读:16 经验技巧

安装步骤:

1. 确保你在 llama.cpp 的根目录下

cd ~/llama.cpp

2. 直接拉取该 PR 的代码并创建本地分支 pr-22673

git fetch https://github.com/ggml-org/llama.cpp.git pull/22673/head:pr-22673

3. 切换到这个新分支

git checkout pr-22673

编译:
make -B build -DGGML_CUDA=ON \
-DCMAKE_CUDA_ARCHITECTURES="75" \
-DGGML_CUDA_F16=ON \
-DGGML_CUDA_FLASH_ATTN=OFF

执行编译:
cmake --build build --config Release -j$(nproc)

注意:
huggingface.co难以下载,要换成国内镜像,方法如下:
直接修改 llama.cpp 源码,把 HF 地址永久换成镜像
第一步:打开这个文件
运行
nano ~/llama.cpp/scripts/webui-download.cmake
第二步:找到这一行(大约在 20~40 行之间)
set(LLAMA_WEBUI_HF_BUCKET_URL "https://huggingface.co/buckets/ggml-org/llama-ui/resolve" CACHE STRING "URL for the WebUI bucket")
第三步:把里面的网址替换成国内镜像
改成:
set(LLAMA_WEBUI_HF_BUCKET_URL "https://hf-mirror.com/buckets/ggml-org/llama-ui/resolve" CACHE STRING "URL for the WebUI bucket")
第四步:保存退出
nano 按:
Ctrl+O → 回车 → Ctrl+X

可以执行的命令:
./build/bin/llama-server \
-m /data/models/qwen3.6-27b-mtp/Qwen3.6-27B-MTP-Q4_K_M.gguf \
--port 8000 \
--host 0.0.0.0 \
-t 8 \
--n-gpu-layers -1 \
-c 32768 \
--flash-attn on \
--spec-type draft-mtp \
--spec-draft-n-max 1 \
--cache-type-k q4_0 \
--cache-type-v q4_0 \
--no-warmup \
--prio 3