<?xml version="1.0" encoding="utf-8"?>
<rss version="2.0"
xmlns:dc="http://purl.org/dc/elements/1.1/"
xmlns:atom="http://www.w3.org/2005/Atom"
>
<channel>
<title><![CDATA[一把老骨头]]></title> 
<atom:link href="http://yblgt.com/rss.php" rel="self" type="application/rss+xml" />
<description><![CDATA[工程师，分享知识，分享生活]]></description>
<link>http://yblgt.com/</link>
<language>zh-cn</language>

<item>
    <title>采纳DFLASH大模型的命令（未成功，要换分支跑）</title>
    <link>http://yblgt.com/?post=1601</link>
    <description><![CDATA[<p>./build/bin/llama-server \<br />
-m /data/models/unsloth-qwen27b/Qwen3.6-27B-Q4_K_M.gguf \<br />
--mmproj /data/models/unsloth-qwen27b/mmproj-F16.gguf \<br />
--no-mmproj-offload \<br />
--spec-draft-model /data/models/unsloth-qwen27b/Qwen3.6-27B-DFlash-Q4_K_M.gguf \<br />
--spec-type draft-dflash \<br />
--port 8000 \<br />
-np 1 \<br />
--kv-unified \<br />
-ngl 99 \<br />
--spec-draft-ngl 99 \<br />
-b 1024 -ub 512 \<br />
--ctx-size 102400 \<br />
--cache-type-k q5_0 --cache-type-v q4_1 \<br />
--flash-attn on \<br />
--jinja \<br />
--no-mmap --mlock \<br />
--no-host \<br />
--reasoning on \<br />
--chat-template-kwargs '{&quot;preserve_thinking&quot;:true}' \<br />
--temp 0.6 --top-k 20 --top-p 1.0 --min-p 0.0 \<br />
--image-min-tokens 1024</p>]]></description>
    <pubDate>Thu, 02 Jul 2026 14:10:25 +0800</pubDate>
    <dc:creator>一把老骨头</dc:creator>
    <guid>http://yblgt.com/?post=1601</guid>
</item>
<item>
    <title>Beellama安装手册</title>
    <link>http://yblgt.com/?post=1600</link>
    <description><![CDATA[<ol>
<li>BeeLlama.cpp 简介<br />
BeeLlama.cpp（简称 Bee）是 llama.cpp 的一个高性能分支，专注于提升本地 GGUF 模型推理的速度和上下文长度。它在保留 llama.cpp 工具和服务器流程的基础上，增加了以下关键特性：<br />
DFlash 推测解码：利用小型草稿模型预测多个 token，由主模型验证，显著提升生成速度（尤其适用于代码、结构化文本等低熵内容）。<br />
自适应草稿控制：动态调整草稿长度以优化吞吐量。<br />
TurboQuant/TCQ KV 缓存压缩：提供高达 7.5 倍的 KV 缓存压缩，有效节省显存。<br />
推理循环保护：检测并干预重复的推理输出。<br />
完整的多模态支持：支持视觉输入。</li>
<li>系统要求<br />
操作系统：Ubuntu（推荐 20.04 或更高版本）<br />
GPU：NVIDIA RTX 2080 Ti (22GB VRAM)<br />
CUDA：12.4 或 13.1<br />
依赖：CMake, GCC, NVIDIA 驱动及 CUDA Toolkit</li>
<li>安装步骤<br />
3.1 方法一：使用预编译二进制文件（推荐）<br />
下载二进制文件：<br />
访问 BeeLlama.cpp Releases 页面，根据你的 CUDA 版本下载对应的 Ubuntu 预编译包。<br />
如果你安装的是 CUDA 12.4，请下载 bin-ubuntu-cuda-12.4-x64.tar.gz<br />
如果你安装的是 CUDA 13.1，请下载 bin-ubuntu-cuda-13.1-x64.tar.gz<br />
tar -xzf bin-ubuntu-cuda-<your_cuda_version>-x64.tar.gz<br />
cd beellama.cpp<br />
3.2 方法二：从源代码编译（可选，性能可能略优）<br />
安装依赖：</li>
</ol>
<p>sudo apt update<br />
sudo apt install build-essential cmake git</p>
<h1>确保已安装 CUDA Toolkit</h1>
<p>克隆仓库并编译：</p>
<p>git clone <a href="https://github.com/Anbeeld/beellama.cpp.git">https://github.com/Anbeeld/beellama.cpp.git</a><br />
cd beellama.cpp</p>
<h1>针对 RTX 2080 Ti (Turing 架构, compute capability 7.5) 进行编译</h1>
<p>cmake -B build -DGGML_CUDA=ON -DGGML_NATIVE=ON \<br />
-DGGML_CUDA_FA=ON -DGGML_CUDA_FA_ALL_QUANTS=ON \<br />
-DCMAKE_CUDA_ARCHITECTURES=75 \<br />
-DCMAKE_BUILD_TYPE=Release</p>
<p>cmake --build build -j<br />
注意: DCMAKE_CUDA_ARCHITECTURES=75 是为 RTX 2080 Ti 设置的。如果你不确定，可以省略此选项，CMake 会自动检测。</p>
<ol start="4">
<li>模型准备<br />
你需要下载三个文件（以 Qwen 3.6 27B 为例）：<br />
主模型 (Target Model):<br />
高精度版: Qwen3.6-27B-Q5_K_S.gguf (来自 unsloth/Qwen3.6-27B-GGUF)<br />
高速/低显存版: Qwen3.6-27B-Q4_K_M.gguf 或 Qwen3.6-27B-IQ4_XS.gguf (来自 cHunter789/Qwen3.6-27B-i1-IQ4_XS-GGUF)<br />
DFlash 草稿模型 (Draft Model):<br />
从 Anbeeld/Qwen3.6-27B-DFlash-GGUF 下载，例如 Qwen3.6-27B-DFlash-Q4_K_M.gguf。<br />
多模态投影器 (可选, mmproj):<br />
如果需要视觉功能，从 unsloth/Qwen3.6-27B-GGUF 下载 mmproj-BF16.gguf。<br />
将这些文件放在一个易于访问的目录中，例如 ~/models/。</li>
<li>启动服务器（针对 22GB 显存优化）<br />
考虑到你的 RTX 2080 Ti 有 22GB 显存（略少于官方推荐的 24GB），我们采用高速/低显存组合，并进行适当调整以确保稳定运行。<br />
5.1 基础启动命令（无视觉）</li>
</ol>
<p>./build/bin/llama-server \<br />
-m &quot;~/models/Qwen3.6-27B-Q4_K_M.gguf&quot; \<br />
--spec-draft-model &quot;~/models/Qwen3.6-27B-DFlash-Q4_K_M.gguf&quot; \<br />
--spec-type dflash \<br />
--spec-dflash-cross-ctx 512 \<br />
--port 8080 \<br />
-np 1 \<br />
--kv-unified \<br />
-ngl all \<br />
--spec-draft-ngl all \<br />
-b 2048 -ub 512 \<br />
--ctx-size 65536 \ # 将上下文减少到 64K 以适应 22G 显存<br />
--cache-type-k turbo3_tcq \<br />
--cache-type-v turbo3_tcq \ # 使用 TCQ 压缩进一步节省显存<br />
--flash-attn on \<br />
--no-mmap --mlock \<br />
--temp 0.6 --top-k 20 --top-p 1.0 --min-p 0.0<br />
5.2 启动命令（带视觉）<br />
bash</p>
<p>./build/bin/llama-server \<br />
-m &quot;~/models/Qwen3.6-27B-Q4_K_M.gguf&quot; \<br />
--mmproj &quot;~/models/mmproj-BF16.gguf&quot; \<br />
--no-mmproj-offload \ # 将 mmproj 卸载到 CPU 以节省 GPU 显存<br />
--spec-draft-model &quot;~/models/Qwen3.6-27B-DFlash-Q4_K_M.gguf&quot; \<br />
--spec-type dflash \<br />
--spec-dflash-cross-ctx 512 \<br />
--port 8080 \<br />
-np 1 \<br />
--kv-unified \<br />
-ngl all \<br />
--spec-draft-ngl all \<br />
-b 2048 -ub 512 \<br />
--ctx-size 65536 \<br />
--cache-type-k turbo3_tcq \<br />
--cache-type-v turbo3_tcq \<br />
--flash-attn on \<br />
--no-mmap --mlock \<br />
--temp 0.6 --top-k 20 --top-p 1.0 --min-p 0.0</p>
<p>5.3 关键参数解释<br />
-m: 主模型路径。<br />
--spec-*: DFlash 相关配置，启用推测解码。<br />
--ctx-size 65536: 重要！将上下文长度从默认的 100K+ 降低到 64K，这是为了适配 22GB 显存。<br />
--cache-type-k/v turbo3_tcq: 重要！使用 TCQ 压缩技术大幅减小 KV 缓存占用。turbo3_tcq 在显存和精度之间取得了较好的平衡。<br />
--spec-dflash-cross-ctx 512: 减少草稿模型能看到的上下文，进一步节省显存。<br />
--no-mmproj-offload: 对于独立显卡，将视觉模块卸载到 CPU 可以释放宝贵的 GPU 显存。<br />
-ngl all: 将所有模型层加载到 GPU 上。</p>
<ol start="6">
<li>故障排除<br />
显存不足 (Out of VRAM):<br />
进一步降低 --ctx-size (例如 32768)。<br />
尝试使用 turbo2_tcq 作为缓存类型（但会损失更多精度）。<br />
将主模型换成 IQ4_XS 版本。<br />
DFlash 未生效:<br />
检查日志中是否有 dflash: 或 speculative 相关信息。<br />
确认草稿模型是专门为 DFlash 准备的，而不是普通的 Qwen 模型。<br />
TCQ 缓存类型报错:<br />
确保你使用的是 CUDA 后端编译的版本。TCQ (turbo*_tcq) 仅支持 CUDA。<br />
通过以上配置，你应该能够在你的 RTX 2080 Ti 22GB + Ubuntu 系统上成功运行 BeeLlama.cpp，并利用 DFlash 和 TCQ 技术获得高效的推理体验。</li>
</ol>]]></description>
    <pubDate>Wed, 01 Jul 2026 13:57:03 +0800</pubDate>
    <dc:creator>一把老骨头</dc:creator>
    <guid>http://yblgt.com/?post=1600</guid>
</item>
<item>
    <title>LLAMA.CPP升级成功命令</title>
    <link>http://yblgt.com/?post=1599</link>
    <description><![CDATA[<p>cd ~/llama.cpp<br />
rm -rf tools/ui/dist<br />
rm -rf build</p>
<h1>安装 Node.js 和 npm（用于构建 UI 资源）</h1>
<p>curl -fsSL <a href="https://deb.nodesource.com/setup_20.x">https://deb.nodesource.com/setup_20.x</a> | sudo -E bash -<br />
sudo apt install -y nodejs</p>
<h1>重新编译</h1>
<p>mkdir build &amp;&amp; cd build<br />
cmake .. \<br />
-DCMAKE_BUILD_TYPE=Release \<br />
-DGGML_CUDA=ON \<br />
-DLLAMA_CURL=ON \<br />
-DLLAMA_SERVER=ON<br />
make -j$(nproc)</p>
<p>参数：<br />
-DGGML_CUDA=ON  启用 NVIDIA CUDA GPU 加速<br />
-DGGML_CUDA_F16=ON  启用 FP16 计算（可选，提升性能）<br />
-DLLAMA_CURL=ON 启用 HTTP/HTTPS 网络支持（Web UI 需要）<br />
-DLLAMA_SERVER=ON   编译 llama-server（Web UI 服务）<br />
-DLLAMA_AVX2=ON 启用 AVX2 指令集优化（Intel CPU）</p>]]></description>
    <pubDate>Tue, 30 Jun 2026 14:51:44 +0800</pubDate>
    <dc:creator>一把老骨头</dc:creator>
    <guid>http://yblgt.com/?post=1599</guid>
</item>
<item>
    <title>我的主力模型在三大场景的命令参数</title>
    <link>http://yblgt.com/?post=1598</link>
    <description><![CDATA[<p>写文章专用：（占用21103M,写文章速度29.8T/S）<br />
./build/bin/llama-server   -m /data/models/qwen3.6-27b-mtp/Qwen3.6-27B-MTP-Q4_K_M.gguf   --mmproj /data/models/qwen3.6-27b-mtp/mmproj-F16.gguf   --port 8000 --host 0.0.0.0   -t 12   --threads-batch 12   --n-gpu-layers 999   -c 102400   --batch-size 1024   --ubatch-size 512   --flash-attn on   --cont-batching   --spec-type draft-mtp   --spec-draft-n-max 2   --spec-draft-p-min 0.7   --cache-type-k q8_0 --cache-type-v q8_0   --parallel 1   --temp 0.6   --mlock   --no-warmup   --prio 3  --cache-ram 0  --image-min-tokens 1024</p>
<p>速度快专用：(占用20313M,写文章速度109T/S)<br />
./build/bin/llama-server   -m /data/models/Qwopus3.6-35B-A3B-v1-IQ4_XS.gguf   --mmproj /data/models/mmproj-F32.gguf   --port 8000 --host 0.0.0.0   -t 12   --threads-batch 12   --n-gpu-layers 999   -c 102400   --batch-size 1024   --ubatch-size 512   --flash-attn on   --cont-batching   --cache-type-k q8_0 --cache-type-v q8_0   --parallel 1   --temp 0.6   --mlock   --no-warmup   --prio 3 --cache-ram 0  --image-min-tokens 1024</p>
<p>写代码专用：（不带图,占用20217M,写文章速度32.6T/S）<br />
./build/bin/llama-server -m /data/models/qwen3.6-27b-mtp/Qwen3.6-27B-MTP-Q4_K_M.gguf --port 8000 --host 0.0.0.0 -t 12 --threads-batch 12 --n-gpu-layers 999 -c 102400 --batch-size 1024 --ubatch-size 512 --flash-attn on --cont-batching --spec-type draft-mtp --spec-draft-n-max 2 --spec-draft-p-min 0.5 --cache-type-k q8_0 --cache-type-v q8_0 --parallel 1 --temp 0.2 --top-p 0.9 --mlock --no-warmup --prio 3 --cache-ram 0  --image-min-tokens 1024</p>]]></description>
    <pubDate>Sun, 28 Jun 2026 15:13:42 +0800</pubDate>
    <dc:creator>一把老骨头</dc:creator>
    <guid>http://yblgt.com/?post=1598</guid>
</item>
<item>
    <title>下载无审查QWEN3.6-35B-A3B-UNCENSORED的命令</title>
    <link>http://yblgt.com/?post=1597</link>
    <description><![CDATA[<p>hf download HauhauCS/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive \<br />
--local-dir ./Qwen3.6-35B-A3B-Uncensored \<br />
Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ4_XS.gguf</p>]]></description>
    <pubDate>Tue, 16 Jun 2026 20:35:54 +0800</pubDate>
    <dc:creator>一把老骨头</dc:creator>
    <guid>http://yblgt.com/?post=1597</guid>
</item>
<item>
    <title>尝鲜下载谷歌Gemma 4 QAT大模型地址（26B、12B）</title>
    <link>http://yblgt.com/?post=1596</link>
    <description><![CDATA[<p>26B:<br />
hf download unsloth/gemma-4-26B-A4B-it-qat-GGUF   --local-dir ./gemma-4-26b   --include &quot;*.gguf&quot;</p>
<p>12B:</p>
<h1>下载主模型（推荐 Q4_K_M 版本，性能与体积平衡）</h1>
<p>hf download bartowski/gemma-4-12B-it-GGUF   --local-dir ./gemma-4-12b   --include &quot;gemma-4-12B-it-Q4_K_M.gguf&quot;</p>
<h1>下载视觉编码器（必须，让模型能看图）</h1>
<p>hf download unsloth/gemma-4-12b-it-GGUF   --local-dir ./gemma-4-12b   --include &quot;mmproj-F16.gguf&quot;</p>
<p><img src="http://www.yblgt.com/content/uploadfile/202606/b0131781138280.png" alt="" /></p>]]></description>
    <pubDate>Thu, 11 Jun 2026 08:32:40 +0800</pubDate>
    <dc:creator>一把老骨头</dc:creator>
    <guid>http://yblgt.com/?post=1596</guid>
</item>
<item>
    <title>LLAMA-BENCH自动测试命令</title>
    <link>http://yblgt.com/?post=1595</link>
    <description><![CDATA[<p>未加入线程：</p>
<h1>你的固定基础配置</h1>
<p>BASE=&quot;/home/yblgt/llama.cpp/build/bin/llama-bench \<br />
--model /data/models/qwen3.6-27b-mtp/Qwen3.6-27B-MTP-Q4_K_M.gguf \<br />
-t 6 \<br />
-ngl 81 \<br />
--flash-attn 1 \<br />
-n 256 -p 512 \<br />
-r 3&quot;</p>
<h1>测试不同的 batch-size 和 ubatch-size 组合</h1>
<p>for batch in 512 1024 1536 1920 2048 4096; do<br />
for ubatch in 256 512 768 1024); do<br />
echo &quot;=== Testing batch=$batch ubatch=$ubatch ===&quot;<br />
$BASE --batch-size $batch --ubatch-size $ubatch<br />
done<br />
done</p>
<p>加入线程<br />
bash</p>
<h1>!/bin/bash</h1>
<h1>基础配置（不再包含 -t）</h1>
<p>BASE=&quot;/home/yblgt/llama.cpp/build/bin/llama-bench \<br />
--model /data/models/qwen3.6-27b-mtp/Qwen3.6-27B-MTP-Q4_K_M.gguf \<br />
-ngl 81 \<br />
--flash-attn 1 \<br />
-n 256 -p 512 \<br />
-r 3&quot;</p>
<h1>测试不同的线程数、batch-size 和 ubatch-size 组合</h1>
<p>for t in 6 12; do<br />
for batch in 512 1024 1536 1920 2048 4096; do<br />
for ubatch in 256 512 768 1024); do<br />
echo &quot;=== Testing threads=$t batch=$batch ubatch=$ubatch ===&quot;<br />
$BASE -t $t --batch-size $batch --ubatch-size $ubatch<br />
done<br />
done<br />
done</p>]]></description>
    <pubDate>Mon, 25 May 2026 13:15:04 +0800</pubDate>
    <dc:creator>一把老骨头</dc:creator>
    <guid>http://yblgt.com/?post=1595</guid>
</item>
<item>
    <title>深挖RTX2080TI性能优化：跑千问大模型的命令记录（二）</title>
    <link>http://yblgt.com/?post=1594</link>
    <description><![CDATA[<p>跑完llama.cpp的bench基准测试结果：<br />
########################################################################</p>
<h1>Find maximum number of model layers that can be written to your VRAM</h1>
<p>########################################################################</p>
<p>Testing for: -ngl = 75<br />
Testing for: -ngl = 112<br />
Testing for: -ngl = 131<br />
Testing for: -ngl = 140<br />
Testing for: -ngl = 145<br />
Testing for: -ngl = 147<br />
Testing for: -ngl = 148<br />
Testing for: -ngl = 149<br />
Estimated max ngl = 149</p>
<p>Setting maximum -ngl to 149</p>
<p>Warmup performance history: [27.169813, 27.090305, 27.144696, 26.995448, 27.054011, 27.038189, 27.065603, 27.028237, 27.041289, 27.046516, 27.089866, 27.026862, 27.046862, 26.971674, 27.025514, 27.05764, 27.059785, 27.025481, 27.068116, 27.022433, 26.981009, 27.000351, 26.960303, 27.013747, 26.96748, 26.994402, 26.951979, 26.996994, 27.003112, 26.99966, 26.988973, 27.016048, 26.965876, 27.017555, 27.046099]</p>
<h1>First stage: Initial exploration of parameter space</h1>
<p>Best config Stage_1: {'batch': 15806, 'u_batch': 7127, 'threads': 24, 'gpu_layers': 95}<br />
Best Stage_1 tg tokens/sec: 27.204362</p>
<h1>Second stage: Grid search over categorical parameters</h1>
<p>Best config Stage_2: {'flash_attn': 1, 'override_tensor': 'ffn_cpu_updown'}<br />
Best Stage_2 tg tokens/sec: 27.271601</p>
<h1>Third stage: Finetune final config</h1>
<p>'gpu_layers': 115, 'flash_attn': 1, 'override_tensor': 'ffn_cpu_all'}<br />
Best Stage_3 tg tokens/sec: 27.445436</p>
<p>You are ready to run a local llama-server:<br />
If you launch llama-server, it will be listening at <a href="http://127.0.0.1:8080/">http://127.0.0.1:8080/</a> in your browser.</p>
<p>###################################################################</p>
<h1>You can now launch an optimized llama-server.</h1>
<h1>just run next lines in your terminal:</h1>
<p>###################################################################</p>
<p>LLAMA_BIN=/home/yblgt/llama.cpp/build/bin<br />
MODEL=/data/models/qwen3.6-27b-mtp/Qwen3.6-27B-MTP-Q4_K_M.gguf</p>
<p>$LLAMA<em>BIN/llama-server --model $MODEL -t 20 --batch-size 1953 --ubatch-size 772 -ngl 115  --override-tensor &quot;blk.(?:[0-9]*[02468]).ffn</em>.*_exps.=CPU&quot;  --flash-attn </p>
<p>########################################################</p>
<h1>Benchmarking your OPTIMIZED configuration</h1>
<h1>Let's run the following line on terminal:</h1>
<p>########################################################</p>
<p>/home/yblgt/llama.cpp/build/bin/llama-bench --model /data/models/qwen3.6-27b-mtp/Qwen3.6-27B-MTP-Q4_K<em>M.gguf -t 20 --batch-size 1953 --ubatch-size 772 -ngl 115 --flash-attn 1 -n 128 -p 256 -r 6 --no-warmup --progress  --override-tensor &quot;blk.(?:[0-9]*[02468]).ffn</em>.*_exps.=CPU&quot; </p>
<table>
<thead>
<tr>
<th>ggml_cuda_init: found 1 CUDA devices (Total VRAM: 22183 MiB):<br />
Device 0: NVIDIA GeForce RTX 2080 Ti, compute capability 7.5, VMM: yes, VRAM: 22183 MiB</th>
<th style="text-align: right;">model</th>
<th style="text-align: right;">size</th>
<th>params</th>
<th style="text-align: right;">backend</th>
<th style="text-align: right;">ngl</th>
<th style="text-align: right;">threads</th>
<th style="text-align: right;">n_batch</th>
<th style="text-align: right;">n_ubatch</th>
<th>fa</th>
<th style="text-align: right;">ot</th>
<th style="text-align: right;">test</th>
<th>t/s</th>
</tr>
</thead>
<tbody>
</tbody>
</table>
<p>llama-bench: benchmark 1/2: starting<br />
llama-bench: benchmark 1/2: prompt run 1/6<br />
llama-bench: benchmark 1/2: prompt run 2/6<br />
llama-bench: benchmark 1/2: prompt run 3/6<br />
llama-bench: benchmark 1/2: prompt run 4/6<br />
llama-bench: benchmark 1/2: prompt run 5/6<br />
llama-bench: benchmark 1/2: prompt run 6/6<br />
| qwen35 27B Q4<em>K - Medium       |  15.35 GiB |    27.32 B | CUDA       | 115 |      20 |    1953 |      772 |  1 | blk.(?:[0-9]*[02468]).ffn</em>.<em>_exps.=CPU |           pp256 |       650.25 ± 14.02 |<br />
llama-bench: benchmark 2/2: starting<br />
llama-bench: benchmark 2/2: generation run 1/6<br />
llama-bench: benchmark 2/2: generation run 2/6<br />
llama-bench: benchmark 2/2: generation run 3/6<br />
llama-bench: benchmark 2/2: generation run 4/6<br />
llama-bench: benchmark 2/2: generation run 5/6<br />
llama-bench: benchmark 2/2: generation run 6/6<br />
| qwen35 27B Q4_K - Medium       |  15.35 GiB |    27.32 B | CUDA       | 115 |      20 |    1953 |      772 |  1 | blk.(?:[0-9]</em>[02468]).ffn_.*_exps.=CPU |           tg128 |         27.18 ± 0.01 |</p>
<p>build: a957b7747 (9173)</p>
<p>########################################################</p>
<h1>Compare your previous results with NON-OPTIMIZED case</h1>
<h1>Let's run the following line on terminal:</h1>
<h1></h1>
<h1>Look for results in column 't/s' (tokens/s)</h1>
<h1>row tg128 --&gt; reports on token  generation speed</h1>
<h1>row pp256 --&gt; reports on prompt processing speed</h1>
<p>########################################################</p>
<p>/home/yblgt/llama.cpp/build/bin/llama-bench --model /data/models/qwen3.6-27b-mtp/Qwen3.6-27B-MTP-Q4_K_M.gguf -n 128 -p 256 -r 6 --no-warmup --progress </p>
<table>
<thead>
<tr>
<th>ggml_cuda_init: found 1 CUDA devices (Total VRAM: 22183 MiB):<br />
Device 0: NVIDIA GeForce RTX 2080 Ti, compute capability 7.5, VMM: yes, VRAM: 22183 MiB</th>
<th style="text-align: right;">model</th>
<th style="text-align: right;">size</th>
<th>params</th>
<th style="text-align: right;">backend</th>
<th style="text-align: right;">ngl</th>
<th style="text-align: right;">test</th>
<th>t/s</th>
</tr>
</thead>
<tbody>
</tbody>
</table>
<p>llama-bench: benchmark 1/2: starting<br />
llama-bench: benchmark 1/2: prompt run 1/6<br />
llama-bench: benchmark 1/2: prompt run 2/6<br />
llama-bench: benchmark 1/2: prompt run 3/6<br />
llama-bench: benchmark 1/2: prompt run 4/6<br />
llama-bench: benchmark 1/2: prompt run 5/6<br />
llama-bench: benchmark 1/2: prompt run 6/6<br />
| qwen35 27B Q4_K - Medium       |  15.35 GiB |    27.32 B | CUDA       |  99 |           pp256 |       637.51 ± 35.49 |<br />
llama-bench: benchmark 2/2: starting<br />
llama-bench: benchmark 2/2: generation run 1/6<br />
llama-bench: benchmark 2/2: generation run 2/6<br />
llama-bench: benchmark 2/2: generation run 3/6<br />
llama-bench: benchmark 2/2: generation run 4/6<br />
llama-bench: benchmark 2/2: generation run 5/6<br />
llama-bench: benchmark 2/2: generation run 6/6<br />
| qwen35 27B Q4_K - Medium       |  15.35 GiB |    27.32 B | CUDA       |  99 |           tg128 |         26.97 ± 0.03 |</p>
<p>build: a957b7747 (9173)</p>
<p>优化命令<br />
./build/bin/llama-server \<br />
-m /data/models/qwen3.6-27b-mtp/Qwen3.6-27B-MTP-Q4_K<em>M.gguf \<br />
--port 8000 --host 0.0.0.0 \<br />
-t 20 \<br />
--threads-batch 20 \          # 建议与 -t 相同<br />
--n-gpu-layers 115 \          # 替换原来的 -1<br />
-c 196608 \<br />
--batch-size 1953 \<br />
--ubatch-size 772 \<br />
--flash-attn on \<br />
--override-tensor &quot;blk.(?:[0-9]*[02468]).ffn</em>.*_exps.=CPU&quot; \<br />
--cont-batching \<br />
--spec-type draft-mtp \<br />
--spec-draft-n-max 2 \<br />
--spec-draft-p-min 0.7 \<br />
--cache-type-k q4_0 --cache-type-v q4_0 \<br />
--parallel 1 \<br />
--temp 0.6 \<br />
--mlock \<br />
--no-warmup \<br />
--prio 3</p>]]></description>
    <pubDate>Thu, 21 May 2026 16:56:47 +0800</pubDate>
    <dc:creator>一把老骨头</dc:creator>
    <guid>http://yblgt.com/?post=1594</guid>
</item>
<item>
    <title>深挖RTX2080TI性能优化：跑千问大模型的命令记录（一）</title>
    <link>http://yblgt.com/?post=1593</link>
    <description><![CDATA[<p>任务四：在QWENPAW中测试输出IOS 27001审核计划书<br />
耗时24分钟，中间有截断，后补全成功。</p>
<p>测试环境：<br />
双E5-2643 V3+32G+1T<br />
RTX2080TI 魔改卡22G<br />
Ubuntu 22.04  (内核5.15，原6.8，性能降18%，待调)<br />
Nvidia driver 535.309.01   cuda 12.2<br />
qwen3.6-27b-mtp/Qwen3.6-27B-MTP-Q4_K_M.gguf<br />
MTP  开启<br />
上下文长度192K<br />
llama.cpp mtp分支</p>
<p>命令：<br />
./build/bin/llama-server \<br />
-m /data/models/qwen3.6-27b-mtp/Qwen3.6-27B-MTP-Q4_K_M.gguf \<br />
--port 8000 --host 0.0.0.0 \<br />
-t 4 --threads-batch 4 \<br />
--n-gpu-layers -1 \<br />
-c 196608 \<br />
--batch-size 8192 \<br />
--flash-attn on \<br />
--cont-batching \<br />
--spec-type draft-mtp \<br />
--spec-draft-n-max 2 \<br />
--spec-draft-p-min 0.75 \<br />
--cache-type-k q4_0 --cache-type-v q4_0 \<br />
--parallel 1 \<br />
--temp 0.6 \<br />
--mlock \<br />
--no-warmup \<br />
--prio 3</p>]]></description>
    <pubDate>Thu, 21 May 2026 15:03:28 +0800</pubDate>
    <dc:creator>一把老骨头</dc:creator>
    <guid>http://yblgt.com/?post=1593</guid>
</item>
<item>
    <title>RTX2080TI魔改卡+QWEN3.6-27B+MTP多TOKEN预测技术部署要点</title>
    <link>http://yblgt.com/?post=1592</link>
    <description><![CDATA[<p>安装步骤：</p>
<h1>1. 确保你在 llama.cpp 的根目录下</h1>
<p>cd ~/llama.cpp</p>
<h1>2. 直接拉取该 PR 的代码并创建本地分支 pr-22673</h1>
<p>git fetch <a href="https://github.com/ggml-org/llama.cpp.git">https://github.com/ggml-org/llama.cpp.git</a> pull/22673/head:pr-22673</p>
<h1>3. 切换到这个新分支</h1>
<p>git checkout pr-22673</p>
<p>编译：<br />
make -B build -DGGML_CUDA=ON \<br />
-DCMAKE_CUDA_ARCHITECTURES=&quot;75&quot; \<br />
-DGGML_CUDA_F16=ON \<br />
-DGGML_CUDA_FLASH_ATTN=OFF</p>
<p>执行编译：<br />
cmake --build build --config Release -j$(nproc)</p>
<p>注意：<br />
huggingface.co难以下载，要换成国内镜像，方法如下：<br />
直接修改 llama.cpp 源码，把 HF 地址永久换成镜像<br />
第一步：打开这个文件<br />
运行<br />
nano ~/llama.cpp/scripts/webui-download.cmake<br />
第二步：找到这一行（大约在 20～40 行之间）<br />
set(LLAMA_WEBUI_HF_BUCKET_URL &quot;<a href="https://huggingface.co/buckets/ggml-org/llama-ui/resolve">https://huggingface.co/buckets/ggml-org/llama-ui/resolve</a>&quot; CACHE STRING &quot;URL for the WebUI bucket&quot;)<br />
第三步：把里面的网址替换成国内镜像<br />
改成：<br />
set(LLAMA_WEBUI_HF_BUCKET_URL &quot;<a href="https://hf-mirror.com/buckets/ggml-org/llama-ui/resolve">https://hf-mirror.com/buckets/ggml-org/llama-ui/resolve</a>&quot; CACHE STRING &quot;URL for the WebUI bucket&quot;)<br />
第四步：保存退出<br />
nano 按：<br />
Ctrl+O → 回车 → Ctrl+X</p>
<p>可以执行的命令：<br />
./build/bin/llama-server \<br />
-m /data/models/qwen3.6-27b-mtp/Qwen3.6-27B-MTP-Q4_K_M.gguf \<br />
--port 8000 \<br />
--host 0.0.0.0 \<br />
-t 8 \<br />
--n-gpu-layers -1 \<br />
-c 32768 \<br />
--flash-attn on \<br />
--spec-type draft-mtp \<br />
--spec-draft-n-max 1 \<br />
--cache-type-k q4_0 \<br />
--cache-type-v q4_0 \<br />
--no-warmup \<br />
--prio 3<br />
<img src="http://www.yblgt.com/content/uploadfile/202605/07251778933766.png" alt="" /></p>]]></description>
    <pubDate>Sat, 16 May 2026 20:08:10 +0800</pubDate>
    <dc:creator>一把老骨头</dc:creator>
    <guid>http://yblgt.com/?post=1592</guid>
</item>
<item>
    <title>在线的LLM 推理: 显存与性能计算器</title>
    <link>http://yblgt.com/?post=1591</link>
    <description><![CDATA[<p><img src="http://www.yblgt.com/content/uploadfile/202605/36181778115041.png" alt="" /><br />
<a href="https://apxml.com/zh/tools/vram-calculator">https://apxml.com/zh/tools/vram-calculator</a></p>]]></description>
    <pubDate>Thu, 07 May 2026 08:48:18 +0800</pubDate>
    <dc:creator>一把老骨头</dc:creator>
    <guid>http://yblgt.com/?post=1591</guid>
</item>
<item>
    <title>记录CRM嵌入MAXKB智能体过程及坑</title>
    <link>http://yblgt.com/?post=1590</link>
    <description><![CDATA[<p>1、登录MAXKB,在模板中心找一个“CRM智能查询体”，创建并使用<br />
<img src="http://www.yblgt.com/content/uploadfile/202604/db4f1776472797.png" alt="" /><br />
2、MAXKB会自动建立一个MCP,名为“cordys test mcp”<br />
<img src="http://www.yblgt.com/content/uploadfile/202604/2d651776472983.png" alt="" /><br />
3、登录Cordys CRM,在“个人中心”里创建Access key和Secret Key,并记录下来<br />
<img src="http://www.yblgt.com/content/uploadfile/202604/6e041776472877.png" alt="" /><br />
4、在MAXKB的工具里，找到“cordys test mcp”，将记录的ak和sk写进去，测试一下连接，成功再进下一步<br />
<img src="http://www.yblgt.com/content/uploadfile/202604/67a21776473133.png" alt="" /><br />
<em>这里有一个坑：IP地址试了内部IP和外部IP,会有问题，不知出在哪里，后来写了容器名<br />
</em>还有一个坑：ak和sk,不管是变量还是带括号或不带，会有问题，只好写死<br />
5、在MAXKB里增加大模型，原来能用的几个免费的都出错，没办法就用了智谱，暂时还能用<br />
<img src="http://www.yblgt.com/content/uploadfile/202604/91cb1776473374.png" alt="" /><br />
6、在MAXKB里对智能体进行设置，主要设置ak,sk,mcp,大模型，简单，复制及点选即可<br />
<img src="http://www.yblgt.com/content/uploadfile/202604/ad141776473462.png" alt="" /><br />
（注意，有两个MCP设置点，第一个“提取时间阶段”不要设置MCP,在AI对话输出阶段设置）<br />
7、保存，发布智能体<br />
8、打开智能体，点击“嵌入第三方”，复制代码<br />
<img src="http://www.yblgt.com/content/uploadfile/202604/8c791776473543.png" alt="" /><br />
<img src="http://www.yblgt.com/content/uploadfile/202604/0afc1776473595.png" alt="" /><br />
9、打开Cordys CRM,在左侧导航栏选择“智能体”，添加“智能体”<br />
<img src="http://www.yblgt.com/content/uploadfile/202604/84411776473657.png" alt="" /><br />
10、将从MAXKB里复制过来的代码，填入<br />
<img src="http://www.yblgt.com/content/uploadfile/202604/7c951776473704.png" alt="" /><br />
11、最后点击上方的“机器人”就可以使用了<br />
<img src="http://www.yblgt.com/content/uploadfile/202604/2ce51776473762.png" alt="" /><br />
12、看看效果<br />
<img src="http://www.yblgt.com/content/uploadfile/202604/32af1776473802.png" alt="" /><br />
<img src="http://www.yblgt.com/content/uploadfile/202604/3e4e1776473818.png" alt="" /></p>]]></description>
    <pubDate>Sat, 18 Apr 2026 08:36:19 +0800</pubDate>
    <dc:creator>一把老骨头</dc:creator>
    <guid>http://yblgt.com/?post=1590</guid>
</item>
<item>
    <title>养只中国龙虾Copaw，升级还蛮快！</title>
    <link>http://yblgt.com/?post=1589</link>
    <description><![CDATA[<p><img src="http://www.yblgt.com/content/uploadfile/202603/a3791774699086.png" alt="" /></p>]]></description>
    <pubDate>Sat, 28 Mar 2026 19:56:04 +0800</pubDate>
    <dc:creator>一把老骨头</dc:creator>
    <guid>http://yblgt.com/?post=1589</guid>
</item>
<item>
    <title>4月老婆大人过生辰，挑个手机当礼物！华为首选</title>
    <link>http://yblgt.com/?post=1588</link>
    <description><![CDATA[<p><img src="http://www.yblgt.com/content/uploadfile/202603/37af1774698891.png" alt="" /><br />
<img src="http://www.yblgt.com/content/uploadfile/202603/d37c1774698857.jpg" alt="" /></p>]]></description>
    <pubDate>Sat, 28 Mar 2026 19:54:13 +0800</pubDate>
    <dc:creator>一把老骨头</dc:creator>
    <guid>http://yblgt.com/?post=1588</guid>
</item>
<item>
    <title>从YOLOv1至YOLOv12，到底选哪个？</title>
    <link>http://yblgt.com/?post=1587</link>
    <description><![CDATA[<p>原文：<a href="https://mp.weixin.qq.com/s/XvsdqA3tPwuvzNNviEEI1A">https://mp.weixin.qq.com/s/XvsdqA3tPwuvzNNviEEI1A</a></p>
<p><strong>YOLOv1：</strong><br />
开山之作优势：首次将目标检测视为回归问题，实现了真正的实时性。<br />
劣势：对小目标检测效果极差，群体目标容易漏检。<br />
现状：已退出工业舞台，仅供学术溯源。</p>
<p><strong>YOLOv2 (YOLO9000)：</strong><br />
工业化的尝试优势：引入了Anchor Box（先验框）和Batch Normalization，显著提升了召回率和精度。<br />
劣势：虽然叫 9000（号称能识九千种物体），但在复杂任务中精度依然不足。</p>
<p><strong>YOLOv3：</strong><br />
不朽的经典优势：引入了FPN（多尺度特征融合），彻底解决了小目标检测的难题。至今仍有大量旧式嵌入式芯片仅支持 YOLOv3。<br />
劣势：结构相对臃肿，推理延迟在今天看来已不再占优。<br />
结论：如果你的老旧硬件只跑得动 C 语言版本的 Darknet，它仍是唯一选择。</p>
<p><strong>YOLOv4：</strong><br />
集大成者优势：引入了大量Bag of Freebies（免费赠品，如 Mosaic 增强）和Bag of Specials。它是精度与速度平衡的里程碑。<br />
劣势：配置参数极多，训练门槛较高。</p>
<p><strong>YOLOv5：</strong><br />
工程化的巅峰优势：Ultralytics出品。易用性极强，支持 PyTorch，部署极为方便。其生态系统（Export/Hub）是目前工业界使用最广的版本。<br />
劣势：学术创新性常被质疑，且精度已被后续版本超越。结论：追求项目落地速度和稳定性，首选 YOLOv5。</p>
<p><strong>YOLOv7：</strong><br />
速度之王优势：提出了E-ELAN架构，重参化（Reparameterization）技术的应用使其在相同参数下速度极快。<br />
劣势：生态相对独立，没有 v5 那样完善的工具链。</p>
<p><strong>YOLOv8：</strong><br />
全能平台优势：Anchor-Free（无锚点）架构，支持检测、分割、姿态估计、分类、OBB。它是目前的“标准参考模型”。<br />
劣势：推理时仍需 NMS（非极大值抑制）处理，在高并发场景下存在瓶颈。</p>
<p><strong>YOLOv10：</strong><br />
端到端实时检测优势：最大的亮点是去掉了 NMS。通过一致的双重分配策略，实现了端到端的部署，大幅降低了推理延迟。<br />
劣势：在处理密集型重叠目标时，偶尔会出现精度抖动。</p>
<p><strong>YOLO11：</strong><br />
平衡的艺术优势：<br />
劣势：虽然比 v8 快，但在端到端延迟上略逊于专精此道的 v10。</p>
<p><strong>YOLO26 (YOLOv12)：</strong><br />
当下的终极形态优势：<br />
劣势：模型刚刚成熟，社区现成的针对性魔改插件（如特定的注意力机制集成）相对较少。</p>
<p>决策对照表：<br />
<img src="http://www.yblgt.com/content/uploadfile/202603/e2761774489947.png" alt="" /></p>
<p><strong>给开发者的建议：</strong><br />
如果是新项目，直接从YOLO11或YOLO26入手。<br />
如果是工业部署，优先考虑是否有成熟的 TensorRT 适配案例，此时YOLOv8或v10可能是性价比最高的选择。<br />
不要迷信版本号，适合你部署平台（Nvidia vs NPU vs CPU）的版本才是最好的版本。</p>]]></description>
    <pubDate>Thu, 26 Mar 2026 09:48:13 +0800</pubDate>
    <dc:creator>一把老骨头</dc:creator>
    <guid>http://yblgt.com/?post=1587</guid>
</item>
<item>
    <title>手动升级1panel 容器中的应用系统方法</title>
    <link>http://yblgt.com/?post=1586</link>
    <description><![CDATA[<p><img src="http://www.yblgt.com/content/uploadfile/202603/49691773987073.png" alt="" /></p>
<p>1、从https://docker.aityp.com 镜像仓库中下载镜像（风险未知）<br />
2、从1panel中导入镜像<br />
3、从容器中升级，修改版本号，或从镜像进行更新</p>]]></description>
    <pubDate>Fri, 20 Mar 2026 14:11:11 +0800</pubDate>
    <dc:creator>一把老骨头</dc:creator>
    <guid>http://yblgt.com/?post=1586</guid>
</item>
<item>
    <title>芜湖全国第一，力秒合肥！</title>
    <link>http://yblgt.com/?post=1585</link>
    <description><![CDATA[<p><img src="http://www.yblgt.com/content/uploadfile/202603/9e651773401172.jpg" alt="" /></p>]]></description>
    <pubDate>Fri, 13 Mar 2026 19:26:01 +0800</pubDate>
    <dc:creator>一把老骨头</dc:creator>
    <guid>http://yblgt.com/?post=1585</guid>
</item>
<item>
    <title>龙虾OpenClaw终于正常了！附健康状况离线的错误解决办法。</title>
    <link>http://yblgt.com/?post=1584</link>
    <description><![CDATA[<p><img src="http://www.yblgt.com/content/uploadfile/202603/ffd31773232422.png" alt="" /><br />
原先显示错误：<br />
<img src="http://www.yblgt.com/content/uploadfile/202603/4d831773232549.png" alt="" /></p>
<p>解决办法：<br />
1、在OPENCLAW安装目录下找到openclaw.json文件<br />
2、打开文件，找到token后的字符复制下来<br />
3、进行openclaw主页面，找到“概览”--“网关令牌”，粘贴复制下来的TOKEN<br />
4、点左下角“连接”。</p>]]></description>
    <pubDate>Wed, 11 Mar 2026 20:33:20 +0800</pubDate>
    <dc:creator>一把老骨头</dc:creator>
    <guid>http://yblgt.com/?post=1584</guid>
</item>
<item>
    <title>阿里的COPAW升级好快，才一天就到0.0.6了！</title>
    <link>http://yblgt.com/?post=1583</link>
    <description><![CDATA[<p><img src="http://www.yblgt.com/content/uploadfile/202603/383b1773200126.png" alt="" /><br />
<img src="http://www.yblgt.com/content/uploadfile/202603/27df1773200096.png" alt="" /></p>]]></description>
    <pubDate>Wed, 11 Mar 2026 11:34:36 +0800</pubDate>
    <dc:creator>一把老骨头</dc:creator>
    <guid>http://yblgt.com/?post=1583</guid>
</item>
<item>
    <title>阿里COPAW又升级了！期待新变化.....</title>
    <link>http://yblgt.com/?post=1582</link>
    <description><![CDATA[<p><img src="http://www.yblgt.com/content/uploadfile/202603/7c611773129649.png" alt="" /></p>]]></description>
    <pubDate>Tue, 10 Mar 2026 16:00:48 +0800</pubDate>
    <dc:creator>一把老骨头</dc:creator>
    <guid>http://yblgt.com/?post=1582</guid>
</item>
</channel>
</rss>