写文章专用:(占用21103M,写文章速度29.8T/S)
./build/bin/llama-server -m /data/models/qwen3.6-27b-mtp/Qwen3.6-27B-MTP-Q4_K_M.gguf --mmproj /data/models/qwen3.6-27b-mtp/mmproj-F16.gguf --port 8000 --host 0.0.0.0 -t 12 --threads-batch 12 --n-gpu-layers 999 -c 102400 --batch-size 1024 --ubatch-size 512 --flash-attn on --cont-batching --spec-type draft-mtp --spec-draft-n-max 2 --spec-draft-p-min 0.7 --cache-type-k q8_0 --cache-type-v q8_0 --parallel 1 --temp 0.6 --mlock --no-warmup --prio 3 --cache-ram 0 --image-min-tokens 1024
速度快专用:(占用20313M,写文章速度109T/S)
./build/bin/llama-server -m /data/models/Qwopus3.6-35B-A3B-v1-IQ4_XS.gguf --mmproj /data/models/mmproj-F32.gguf --port 8000 --host 0.0.0.0 -t 12 --threads-batch 12 --n-gpu-layers 999 -c 102400 --batch-size 1024 --ubatch-size 512 --flash-attn on --cont-batching --cache-type-k q8_0 --cache-type-v q8_0 --parallel 1 --temp 0.6 --mlock --no-warmup --prio 3 --cache-ram 0 --image-min-tokens 1024
写代码专用:(不带图,占用20217M,写文章速度32.6T/S)
./build/bin/llama-server -m /data/models/qwen3.6-27b-mtp/Qwen3.6-27B-MTP-Q4_K_M.gguf --port 8000 --host 0.0.0.0 -t 12 --threads-batch 12 --n-gpu-layers 999 -c 102400 --batch-size 1024 --ubatch-size 512 --flash-attn on --cont-batching --spec-type draft-mtp --spec-draft-n-max 2 --spec-draft-p-min 0.5 --cache-type-k q8_0 --cache-type-v q8_0 --parallel 1 --temp 0.2 --top-p 0.9 --mlock --no-warmup --prio 3 --cache-ram 0 --image-min-tokens 1024