深挖RTX2080TI性能优化:跑千问大模型的命令记录(一)

一把老骨头 发布于 阅读:83 经验技巧

任务四:在QWENPAW中测试输出IOS 27001审核计划书
耗时24分钟,中间有截断,后补全成功。

测试环境:
双E5-2643 V3+32G+1T
RTX2080TI 魔改卡22G
Ubuntu 22.04 (内核5.15,原6.8,性能降18%,待调)
Nvidia driver 535.309.01 cuda 12.2
qwen3.6-27b-mtp/Qwen3.6-27B-MTP-Q4_K_M.gguf
MTP 开启
上下文长度192K
llama.cpp mtp分支

命令:
./build/bin/llama-server \
-m /data/models/qwen3.6-27b-mtp/Qwen3.6-27B-MTP-Q4_K_M.gguf \
--port 8000 --host 0.0.0.0 \
-t 4 --threads-batch 4 \
--n-gpu-layers -1 \
-c 196608 \
--batch-size 8192 \
--flash-attn on \
--cont-batching \
--spec-type draft-mtp \
--spec-draft-n-max 2 \
--spec-draft-p-min 0.75 \
--cache-type-k q4_0 --cache-type-v q4_0 \
--parallel 1 \
--temp 0.6 \
--mlock \
--no-warmup \
--prio 3