采纳DFLASH大模型的命令（未成功，要换分支跑）

一把老骨头发布于 2026-7-2 14:10 阅读：21 经验技巧

./build/bin/llama-server \
-m /data/models/unsloth-qwen27b/Qwen3.6-27B-Q4_K_M.gguf \
--mmproj /data/models/unsloth-qwen27b/mmproj-F16.gguf \
--no-mmproj-offload \
--spec-draft-model /data/models/unsloth-qwen27b/Qwen3.6-27B-DFlash-Q4_K_M.gguf \
--spec-type draft-dflash \
--port 8000 \
-np 1 \
--kv-unified \
-ngl 99 \
--spec-draft-ngl 99 \
-b 1024 -ub 512 \
--ctx-size 102400 \
--cache-type-k q5_0 --cache-type-v q4_1 \
--flash-attn on \
--jinja \
--no-mmap --mlock \
--no-host \
--reasoning on \
--chat-template-kwargs '{"preserve_thinking":true}' \
--temp 0.6 --top-k 20 --top-p 1.0 --min-p 0.0 \
--image-min-tokens 1024