一把老骨头

采纳DFLASH大模型的命令（未成功，要换分支跑）

一把老骨头 — Thu, 02 Jul 2026 14:10:25 +0800

./build/bin/llama-server \
-m /data/models/unsloth-qwen27b/Qwen3.6-27B-Q4_K_M.gguf \
--mmproj /data/models/unsloth-qwen27b/mmproj-F16.gguf \
--no-mmproj-offload \
--spec-draft-model /data/models/unsloth-qwen27b/Qwen3.6-27B-DFlash-Q4_K_M.gguf \
--spec-type draft-dflash \
--port 8000 \
-np 1 \
--kv-unified \
-ngl 99 \
--spec-draft-ngl 99 \
-b 1024 -ub 512 \
--ctx-size 102400 \
--cache-type-k q5_0 --cache-type-v q4_1 \
--flash-attn on \
--jinja \
--no-mmap --mlock \
--no-host \
--reasoning on \
--chat-template-kwargs '{"preserve_thinking":true}' \
--temp 0.6 --top-k 20 --top-p 1.0 --min-p 0.0 \
--image-min-tokens 1024

Beellama安装手册

一把老骨头 — Wed, 01 Jul 2026 13:57:03 +0800

BeeLlama.cpp 简介
BeeLlama.cpp（简称 Bee）是 llama.cpp 的一个高性能分支，专注于提升本地 GGUF 模型推理的速度和上下文长度。它在保留 llama.cpp 工具和服务器流程的基础上，增加了以下关键特性：
DFlash 推测解码：利用小型草稿模型预测多个 token，由主模型验证，显著提升生成速度（尤其适用于代码、结构化文本等低熵内容）。
自适应草稿控制：动态调整草稿长度以优化吞吐量。
TurboQuant/TCQ KV 缓存压缩：提供高达 7.5 倍的 KV 缓存压缩，有效节省显存。
推理循环保护：检测并干预重复的推理输出。
完整的多模态支持：支持视觉输入。
系统要求
操作系统：Ubuntu（推荐 20.04 或更高版本）
GPU：NVIDIA RTX 2080 Ti (22GB VRAM)
CUDA：12.4 或 13.1
依赖：CMake, GCC, NVIDIA 驱动及 CUDA Toolkit
安装步骤
3.1 方法一：使用预编译二进制文件（推荐）
下载二进制文件：
访问 BeeLlama.cpp Releases 页面，根据你的 CUDA 版本下载对应的 Ubuntu 预编译包。
如果你安装的是 CUDA 12.4，请下载 bin-ubuntu-cuda-12.4-x64.tar.gz
如果你安装的是 CUDA 13.1，请下载 bin-ubuntu-cuda-13.1-x64.tar.gz
tar -xzf bin-ubuntu-cuda--x64.tar.gz
cd beellama.cpp
3.2 方法二：从源代码编译（可选，性能可能略优）
安装依赖：

sudo apt update
sudo apt install build-essential cmake git

确保已安装 CUDA Toolkit

克隆仓库并编译：

git clone https://github.com/Anbeeld/beellama.cpp.git
cd beellama.cpp

针对 RTX 2080 Ti (Turing 架构, compute capability 7.5) 进行编译

cmake -B build -DGGML_CUDA=ON -DGGML_NATIVE=ON \
-DGGML_CUDA_FA=ON -DGGML_CUDA_FA_ALL_QUANTS=ON \
-DCMAKE_CUDA_ARCHITECTURES=75 \
-DCMAKE_BUILD_TYPE=Release

cmake --build build -j
注意: DCMAKE_CUDA_ARCHITECTURES=75 是为 RTX 2080 Ti 设置的。如果你不确定，可以省略此选项，CMake 会自动检测。

模型准备
你需要下载三个文件（以 Qwen 3.6 27B 为例）：
主模型 (Target Model):
高精度版: Qwen3.6-27B-Q5_K_S.gguf (来自 unsloth/Qwen3.6-27B-GGUF)
高速/低显存版: Qwen3.6-27B-Q4_K_M.gguf 或 Qwen3.6-27B-IQ4_XS.gguf (来自 cHunter789/Qwen3.6-27B-i1-IQ4_XS-GGUF)
DFlash 草稿模型 (Draft Model):
从 Anbeeld/Qwen3.6-27B-DFlash-GGUF 下载，例如 Qwen3.6-27B-DFlash-Q4_K_M.gguf。
多模态投影器 (可选, mmproj):
如果需要视觉功能，从 unsloth/Qwen3.6-27B-GGUF 下载 mmproj-BF16.gguf。
将这些文件放在一个易于访问的目录中，例如 ~/models/。
启动服务器（针对 22GB 显存优化）
考虑到你的 RTX 2080 Ti 有 22GB 显存（略少于官方推荐的 24GB），我们采用高速/低显存组合，并进行适当调整以确保稳定运行。
5.1 基础启动命令（无视觉）

./build/bin/llama-server \
-m "~/models/Qwen3.6-27B-Q4_K_M.gguf" \
--spec-draft-model "~/models/Qwen3.6-27B-DFlash-Q4_K_M.gguf" \
--spec-type dflash \
--spec-dflash-cross-ctx 512 \
--port 8080 \
-np 1 \
--kv-unified \
-ngl all \
--spec-draft-ngl all \
-b 2048 -ub 512 \
--ctx-size 65536 \ # 将上下文减少到 64K 以适应 22G 显存
--cache-type-k turbo3_tcq \
--cache-type-v turbo3_tcq \ # 使用 TCQ 压缩进一步节省显存
--flash-attn on \
--no-mmap --mlock \
--temp 0.6 --top-k 20 --top-p 1.0 --min-p 0.0
5.2 启动命令（带视觉）
bash

./build/bin/llama-server \
-m "~/models/Qwen3.6-27B-Q4_K_M.gguf" \
--mmproj "~/models/mmproj-BF16.gguf" \
--no-mmproj-offload \ # 将 mmproj 卸载到 CPU 以节省 GPU 显存
--spec-draft-model "~/models/Qwen3.6-27B-DFlash-Q4_K_M.gguf" \
--spec-type dflash \
--spec-dflash-cross-ctx 512 \
--port 8080 \
-np 1 \
--kv-unified \
-ngl all \
--spec-draft-ngl all \
-b 2048 -ub 512 \
--ctx-size 65536 \
--cache-type-k turbo3_tcq \
--cache-type-v turbo3_tcq \
--flash-attn on \
--no-mmap --mlock \
--temp 0.6 --top-k 20 --top-p 1.0 --min-p 0.0

5.3 关键参数解释
-m: 主模型路径。
--spec-*: DFlash 相关配置，启用推测解码。
--ctx-size 65536: 重要！将上下文长度从默认的 100K+ 降低到 64K，这是为了适配 22GB 显存。
--cache-type-k/v turbo3_tcq: 重要！使用 TCQ 压缩技术大幅减小 KV 缓存占用。turbo3_tcq 在显存和精度之间取得了较好的平衡。
--spec-dflash-cross-ctx 512: 减少草稿模型能看到的上下文，进一步节省显存。
--no-mmproj-offload: 对于独立显卡，将视觉模块卸载到 CPU 可以释放宝贵的 GPU 显存。
-ngl all: 将所有模型层加载到 GPU 上。

故障排除
显存不足 (Out of VRAM):
进一步降低 --ctx-size (例如 32768)。
尝试使用 turbo2_tcq 作为缓存类型（但会损失更多精度）。
将主模型换成 IQ4_XS 版本。
DFlash 未生效:
检查日志中是否有 dflash: 或 speculative 相关信息。
确认草稿模型是专门为 DFlash 准备的，而不是普通的 Qwen 模型。
TCQ 缓存类型报错:
确保你使用的是 CUDA 后端编译的版本。TCQ (turbo*_tcq) 仅支持 CUDA。
通过以上配置，你应该能够在你的 RTX 2080 Ti 22GB + Ubuntu 系统上成功运行 BeeLlama.cpp，并利用 DFlash 和 TCQ 技术获得高效的推理体验。

LLAMA.CPP升级成功命令

一把老骨头 — Tue, 30 Jun 2026 14:51:44 +0800

cd ~/llama.cpp
rm -rf tools/ui/dist
rm -rf build

安装 Node.js 和 npm（用于构建 UI 资源）

curl -fsSL https://deb.nodesource.com/setup_20.x | sudo -E bash -
sudo apt install -y nodejs

重新编译

mkdir build && cd build
cmake .. \
-DCMAKE_BUILD_TYPE=Release \
-DGGML_CUDA=ON \
-DLLAMA_CURL=ON \
-DLLAMA_SERVER=ON
make -j$(nproc)

参数：
-DGGML_CUDA=ON 启用 NVIDIA CUDA GPU 加速
-DGGML_CUDA_F16=ON 启用 FP16 计算（可选，提升性能）
-DLLAMA_CURL=ON 启用 HTTP/HTTPS 网络支持（Web UI 需要）
-DLLAMA_SERVER=ON 编译 llama-server（Web UI 服务）
-DLLAMA_AVX2=ON 启用 AVX2 指令集优化（Intel CPU）

我的主力模型在三大场景的命令参数

一把老骨头 — Sun, 28 Jun 2026 15:13:42 +0800

写文章专用：（占用21103M,写文章速度29.8T/S）
./build/bin/llama-server -m /data/models/qwen3.6-27b-mtp/Qwen3.6-27B-MTP-Q4_K_M.gguf --mmproj /data/models/qwen3.6-27b-mtp/mmproj-F16.gguf --port 8000 --host 0.0.0.0 -t 12 --threads-batch 12 --n-gpu-layers 999 -c 102400 --batch-size 1024 --ubatch-size 512 --flash-attn on --cont-batching --spec-type draft-mtp --spec-draft-n-max 2 --spec-draft-p-min 0.7 --cache-type-k q8_0 --cache-type-v q8_0 --parallel 1 --temp 0.6 --mlock --no-warmup --prio 3 --cache-ram 0 --image-min-tokens 1024

速度快专用：(占用20313M,写文章速度109T/S)
./build/bin/llama-server -m /data/models/Qwopus3.6-35B-A3B-v1-IQ4_XS.gguf --mmproj /data/models/mmproj-F32.gguf --port 8000 --host 0.0.0.0 -t 12 --threads-batch 12 --n-gpu-layers 999 -c 102400 --batch-size 1024 --ubatch-size 512 --flash-attn on --cont-batching --cache-type-k q8_0 --cache-type-v q8_0 --parallel 1 --temp 0.6 --mlock --no-warmup --prio 3 --cache-ram 0 --image-min-tokens 1024

写代码专用：（不带图,占用20217M,写文章速度32.6T/S）
./build/bin/llama-server -m /data/models/qwen3.6-27b-mtp/Qwen3.6-27B-MTP-Q4_K_M.gguf --port 8000 --host 0.0.0.0 -t 12 --threads-batch 12 --n-gpu-layers 999 -c 102400 --batch-size 1024 --ubatch-size 512 --flash-attn on --cont-batching --spec-type draft-mtp --spec-draft-n-max 2 --spec-draft-p-min 0.5 --cache-type-k q8_0 --cache-type-v q8_0 --parallel 1 --temp 0.2 --top-p 0.9 --mlock --no-warmup --prio 3 --cache-ram 0 --image-min-tokens 1024

下载无审查QWEN3.6-35B-A3B-UNCENSORED的命令

一把老骨头 — Tue, 16 Jun 2026 20:35:54 +0800

hf download HauhauCS/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive \
--local-dir ./Qwen3.6-35B-A3B-Uncensored \
Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ4_XS.gguf

尝鲜下载谷歌Gemma 4 QAT大模型地址（26B、12B）

一把老骨头 — Thu, 11 Jun 2026 08:32:40 +0800

26B:
hf download unsloth/gemma-4-26B-A4B-it-qat-GGUF --local-dir ./gemma-4-26b --include "*.gguf"

12B:

下载主模型（推荐 Q4_K_M 版本，性能与体积平衡）

hf download bartowski/gemma-4-12B-it-GGUF --local-dir ./gemma-4-12b --include "gemma-4-12B-it-Q4_K_M.gguf"

下载视觉编码器（必须，让模型能看图）

hf download unsloth/gemma-4-12b-it-GGUF --local-dir ./gemma-4-12b --include "mmproj-F16.gguf"

LLAMA-BENCH自动测试命令

一把老骨头 — Mon, 25 May 2026 13:15:04 +0800

未加入线程：

你的固定基础配置

BASE="/home/yblgt/llama.cpp/build/bin/llama-bench \
--model /data/models/qwen3.6-27b-mtp/Qwen3.6-27B-MTP-Q4_K_M.gguf \
-t 6 \
-ngl 81 \
--flash-attn 1 \
-n 256 -p 512 \
-r 3"

测试不同的 batch-size 和 ubatch-size 组合

for batch in 512 1024 1536 1920 2048 4096; do
for ubatch in 256 512 768 1024); do
echo "=== Testing batch=$batch ubatch=$ubatch ==="
$BASE --batch-size $batch --ubatch-size $ubatch
done
done

加入线程
bash

!/bin/bash

基础配置（不再包含 -t）

BASE="/home/yblgt/llama.cpp/build/bin/llama-bench \
--model /data/models/qwen3.6-27b-mtp/Qwen3.6-27B-MTP-Q4_K_M.gguf \
-ngl 81 \
--flash-attn 1 \
-n 256 -p 512 \
-r 3"

测试不同的线程数、batch-size 和 ubatch-size 组合

for t in 6 12; do
for batch in 512 1024 1536 1920 2048 4096; do
for ubatch in 256 512 768 1024); do
echo "=== Testing threads=$t batch=$batch ubatch=$ubatch ==="
$BASE -t $t --batch-size $batch --ubatch-size $ubatch
done
done
done

深挖RTX2080TI性能优化：跑千问大模型的命令记录（二）

一把老骨头 — Thu, 21 May 2026 16:56:47 +0800

跑完llama.cpp的bench基准测试结果：
########################################################################

Find maximum number of model layers that can be written to your VRAM

########################################################################

Testing for: -ngl = 75
Testing for: -ngl = 112
Testing for: -ngl = 131
Testing for: -ngl = 140
Testing for: -ngl = 145
Testing for: -ngl = 147
Testing for: -ngl = 148
Testing for: -ngl = 149
Estimated max ngl = 149

Setting maximum -ngl to 149

Warmup performance history: [27.169813, 27.090305, 27.144696, 26.995448, 27.054011, 27.038189, 27.065603, 27.028237, 27.041289, 27.046516, 27.089866, 27.026862, 27.046862, 26.971674, 27.025514, 27.05764, 27.059785, 27.025481, 27.068116, 27.022433, 26.981009, 27.000351, 26.960303, 27.013747, 26.96748, 26.994402, 26.951979, 26.996994, 27.003112, 26.99966, 26.988973, 27.016048, 26.965876, 27.017555, 27.046099]

First stage: Initial exploration of parameter space

Best config Stage_1: {'batch': 15806, 'u_batch': 7127, 'threads': 24, 'gpu_layers': 95}
Best Stage_1 tg tokens/sec: 27.204362

Second stage: Grid search over categorical parameters

Best config Stage_2: {'flash_attn': 1, 'override_tensor': 'ffn_cpu_updown'}
Best Stage_2 tg tokens/sec: 27.271601

Third stage: Finetune final config

'gpu_layers': 115, 'flash_attn': 1, 'override_tensor': 'ffn_cpu_all'}
Best Stage_3 tg tokens/sec: 27.445436

You are ready to run a local llama-server:
If you launch llama-server, it will be listening at http://127.0.0.1:8080/ in your browser.

###################################################################

You can now launch an optimized llama-server.

just run next lines in your terminal:

###################################################################

LLAMA_BIN=/home/yblgt/llama.cpp/build/bin
MODEL=/data/models/qwen3.6-27b-mtp/Qwen3.6-27B-MTP-Q4_K_M.gguf

$LLAMABIN/llama-server --model $MODEL -t 20 --batch-size 1953 --ubatch-size 772 -ngl 115 --override-tensor "blk.(?:[0-9]*[02468]).ffn.*_exps.=CPU" --flash-attn

########################################################

Benchmarking your OPTIMIZED configuration

Let's run the following line on terminal:

########################################################

/home/yblgt/llama.cpp/build/bin/llama-bench --model /data/models/qwen3.6-27b-mtp/Qwen3.6-27B-MTP-Q4_KM.gguf -t 20 --batch-size 1953 --ubatch-size 772 -ngl 115 --flash-attn 1 -n 128 -p 256 -r 6 --no-warmup --progress --override-tensor "blk.(?:[0-9]*[02468]).ffn.*_exps.=CPU"

ggml_cuda_init: found 1 CUDA devices (Total VRAM: 22183 MiB): Device 0: NVIDIA GeForce RTX 2080 Ti, compute capability 7.5, VMM: yes, VRAM: 22183 MiB	model	size	params	backend	ngl	threads	n_batch	n_ubatch	fa	ot	test	t/s

llama-bench: benchmark 1/2: starting
llama-bench: benchmark 1/2: prompt run 1/6
llama-bench: benchmark 1/2: prompt run 2/6
llama-bench: benchmark 1/2: prompt run 3/6
llama-bench: benchmark 1/2: prompt run 4/6
llama-bench: benchmark 1/2: prompt run 5/6
llama-bench: benchmark 1/2: prompt run 6/6
| qwen35 27B Q4K - Medium | 15.35 GiB | 27.32 B | CUDA | 115 | 20 | 1953 | 772 | 1 | blk.(?:[0-9]*[02468]).ffn._exps.=CPU | pp256 | 650.25 ± 14.02 |
llama-bench: benchmark 2/2: starting
llama-bench: benchmark 2/2: generation run 1/6
llama-bench: benchmark 2/2: generation run 2/6
llama-bench: benchmark 2/2: generation run 3/6
llama-bench: benchmark 2/2: generation run 4/6
llama-bench: benchmark 2/2: generation run 5/6
llama-bench: benchmark 2/2: generation run 6/6
| qwen35 27B Q4_K - Medium | 15.35 GiB | 27.32 B | CUDA | 115 | 20 | 1953 | 772 | 1 | blk.(?:[0-9][02468]).ffn_.*_exps.=CPU | tg128 | 27.18 ± 0.01 |

build: a957b7747 (9173)

########################################################

Compare your previous results with NON-OPTIMIZED case

Let's run the following line on terminal:

Look for results in column 't/s' (tokens/s)

row tg128 --> reports on token generation speed

row pp256 --> reports on prompt processing speed

########################################################

/home/yblgt/llama.cpp/build/bin/llama-bench --model /data/models/qwen3.6-27b-mtp/Qwen3.6-27B-MTP-Q4_K_M.gguf -n 128 -p 256 -r 6 --no-warmup --progress

ggml_cuda_init: found 1 CUDA devices (Total VRAM: 22183 MiB): Device 0: NVIDIA GeForce RTX 2080 Ti, compute capability 7.5, VMM: yes, VRAM: 22183 MiB	model	size	params	backend	ngl	test	t/s

llama-bench: benchmark 1/2: starting
llama-bench: benchmark 1/2: prompt run 1/6
llama-bench: benchmark 1/2: prompt run 2/6
llama-bench: benchmark 1/2: prompt run 3/6
llama-bench: benchmark 1/2: prompt run 4/6
llama-bench: benchmark 1/2: prompt run 5/6
llama-bench: benchmark 1/2: prompt run 6/6
| qwen35 27B Q4_K - Medium | 15.35 GiB | 27.32 B | CUDA | 99 | pp256 | 637.51 ± 35.49 |
llama-bench: benchmark 2/2: starting
llama-bench: benchmark 2/2: generation run 1/6
llama-bench: benchmark 2/2: generation run 2/6
llama-bench: benchmark 2/2: generation run 3/6
llama-bench: benchmark 2/2: generation run 4/6
llama-bench: benchmark 2/2: generation run 5/6
llama-bench: benchmark 2/2: generation run 6/6
| qwen35 27B Q4_K - Medium | 15.35 GiB | 27.32 B | CUDA | 99 | tg128 | 26.97 ± 0.03 |

build: a957b7747 (9173)

优化命令
./build/bin/llama-server \
-m /data/models/qwen3.6-27b-mtp/Qwen3.6-27B-MTP-Q4_KM.gguf \
--port 8000 --host 0.0.0.0 \
-t 20 \
--threads-batch 20 \ # 建议与 -t 相同
--n-gpu-layers 115 \ # 替换原来的 -1
-c 196608 \
--batch-size 1953 \
--ubatch-size 772 \
--flash-attn on \
--override-tensor "blk.(?:[0-9]*[02468]).ffn.*_exps.=CPU" \
--cont-batching \
--spec-type draft-mtp \
--spec-draft-n-max 2 \
--spec-draft-p-min 0.7 \
--cache-type-k q4_0 --cache-type-v q4_0 \
--parallel 1 \
--temp 0.6 \
--mlock \
--no-warmup \
--prio 3

深挖RTX2080TI性能优化：跑千问大模型的命令记录（一）

一把老骨头 — Thu, 21 May 2026 15:03:28 +0800

任务四：在QWENPAW中测试输出IOS 27001审核计划书
耗时24分钟，中间有截断，后补全成功。

测试环境：
双E5-2643 V3+32G+1T
RTX2080TI 魔改卡22G
Ubuntu 22.04 (内核5.15，原6.8，性能降18%，待调)
Nvidia driver 535.309.01 cuda 12.2
qwen3.6-27b-mtp/Qwen3.6-27B-MTP-Q4_K_M.gguf
MTP 开启
上下文长度192K
llama.cpp mtp分支

命令：
./build/bin/llama-server \
-m /data/models/qwen3.6-27b-mtp/Qwen3.6-27B-MTP-Q4_K_M.gguf \
--port 8000 --host 0.0.0.0 \
-t 4 --threads-batch 4 \
--n-gpu-layers -1 \
-c 196608 \
--batch-size 8192 \
--flash-attn on \
--cont-batching \
--spec-type draft-mtp \
--spec-draft-n-max 2 \
--spec-draft-p-min 0.75 \
--cache-type-k q4_0 --cache-type-v q4_0 \
--parallel 1 \
--temp 0.6 \
--mlock \
--no-warmup \
--prio 3

RTX2080TI魔改卡+QWEN3.6-27B+MTP多TOKEN预测技术部署要点

一把老骨头 — Sat, 16 May 2026 20:08:10 +0800

安装步骤：

1. 确保你在 llama.cpp 的根目录下

cd ~/llama.cpp

2. 直接拉取该 PR 的代码并创建本地分支 pr-22673

git fetch https://github.com/ggml-org/llama.cpp.git pull/22673/head:pr-22673

3. 切换到这个新分支

git checkout pr-22673

编译：
make -B build -DGGML_CUDA=ON \
-DCMAKE_CUDA_ARCHITECTURES="75" \
-DGGML_CUDA_F16=ON \
-DGGML_CUDA_FLASH_ATTN=OFF

执行编译：
cmake --build build --config Release -j$(nproc)

注意：
huggingface.co难以下载，要换成国内镜像，方法如下：
直接修改 llama.cpp 源码，把 HF 地址永久换成镜像
第一步：打开这个文件
运行
nano ~/llama.cpp/scripts/webui-download.cmake
第二步：找到这一行（大约在 20～40 行之间）
set(LLAMA_WEBUI_HF_BUCKET_URL "https://huggingface.co/buckets/ggml-org/llama-ui/resolve" CACHE STRING "URL for the WebUI bucket")
第三步：把里面的网址替换成国内镜像
改成：
set(LLAMA_WEBUI_HF_BUCKET_URL "https://hf-mirror.com/buckets/ggml-org/llama-ui/resolve" CACHE STRING "URL for the WebUI bucket")
第四步：保存退出
nano 按：
Ctrl+O → 回车 → Ctrl+X

可以执行的命令：
./build/bin/llama-server \
-m /data/models/qwen3.6-27b-mtp/Qwen3.6-27B-MTP-Q4_K_M.gguf \
--port 8000 \
--host 0.0.0.0 \
-t 8 \
--n-gpu-layers -1 \
-c 32768 \
--flash-attn on \
--spec-type draft-mtp \
--spec-draft-n-max 1 \
--cache-type-k q4_0 \
--cache-type-v q4_0 \
--no-warmup \
--prio 3

在线的LLM 推理: 显存与性能计算器

一把老骨头 — Thu, 07 May 2026 08:48:18 +0800

https://apxml.com/zh/tools/vram-calculator

记录CRM嵌入MAXKB智能体过程及坑

一把老骨头 — Sat, 18 Apr 2026 08:36:19 +0800

1、登录MAXKB,在模板中心找一个“CRM智能查询体”，创建并使用

2、MAXKB会自动建立一个MCP,名为“cordys test mcp”

3、登录Cordys CRM,在“个人中心”里创建Access key和Secret Key,并记录下来

4、在MAXKB的工具里，找到“cordys test mcp”，将记录的ak和sk写进去，测试一下连接，成功再进下一步

这里有一个坑：IP地址试了内部IP和外部IP,会有问题，不知出在哪里，后来写了容器名
还有一个坑：ak和sk,不管是变量还是带括号或不带，会有问题，只好写死
5、在MAXKB里增加大模型，原来能用的几个免费的都出错，没办法就用了智谱，暂时还能用

6、在MAXKB里对智能体进行设置，主要设置ak,sk,mcp,大模型，简单，复制及点选即可

（注意，有两个MCP设置点，第一个“提取时间阶段”不要设置MCP,在AI对话输出阶段设置）
7、保存，发布智能体
8、打开智能体，点击“嵌入第三方”，复制代码

9、打开Cordys CRM,在左侧导航栏选择“智能体”，添加“智能体”

10、将从MAXKB里复制过来的代码，填入

11、最后点击上方的“机器人”就可以使用了

12、看看效果

养只中国龙虾Copaw，升级还蛮快！

一把老骨头 — Sat, 28 Mar 2026 19:56:04 +0800

4月老婆大人过生辰，挑个手机当礼物！华为首选

一把老骨头 — Sat, 28 Mar 2026 19:54:13 +0800

从YOLOv1至YOLOv12，到底选哪个？

一把老骨头 — Thu, 26 Mar 2026 09:48:13 +0800

原文：https://mp.weixin.qq.com/s/XvsdqA3tPwuvzNNviEEI1A

YOLOv1：
开山之作优势：首次将目标检测视为回归问题，实现了真正的实时性。
劣势：对小目标检测效果极差，群体目标容易漏检。
现状：已退出工业舞台，仅供学术溯源。

YOLOv2 (YOLO9000)：
工业化的尝试优势：引入了Anchor Box（先验框）和Batch Normalization，显著提升了召回率和精度。
劣势：虽然叫 9000（号称能识九千种物体），但在复杂任务中精度依然不足。

YOLOv3：
不朽的经典优势：引入了FPN（多尺度特征融合），彻底解决了小目标检测的难题。至今仍有大量旧式嵌入式芯片仅支持 YOLOv3。
劣势：结构相对臃肿，推理延迟在今天看来已不再占优。
结论：如果你的老旧硬件只跑得动 C 语言版本的 Darknet，它仍是唯一选择。

YOLOv4：
集大成者优势：引入了大量Bag of Freebies（免费赠品，如 Mosaic 增强）和Bag of Specials。它是精度与速度平衡的里程碑。
劣势：配置参数极多，训练门槛较高。

YOLOv5：
工程化的巅峰优势：Ultralytics出品。易用性极强，支持 PyTorch，部署极为方便。其生态系统（Export/Hub）是目前工业界使用最广的版本。
劣势：学术创新性常被质疑，且精度已被后续版本超越。结论：追求项目落地速度和稳定性，首选 YOLOv5。

YOLOv7：
速度之王优势：提出了E-ELAN架构，重参化（Reparameterization）技术的应用使其在相同参数下速度极快。
劣势：生态相对独立，没有 v5 那样完善的工具链。

YOLOv8：
全能平台优势：Anchor-Free（无锚点）架构，支持检测、分割、姿态估计、分类、OBB。它是目前的“标准参考模型”。
劣势：推理时仍需 NMS（非极大值抑制）处理，在高并发场景下存在瓶颈。

YOLOv10：
端到端实时检测优势：最大的亮点是去掉了 NMS。通过一致的双重分配策略，实现了端到端的部署，大幅降低了推理延迟。
劣势：在处理密集型重叠目标时，偶尔会出现精度抖动。

YOLO11：
平衡的艺术优势：
劣势：虽然比 v8 快，但在端到端延迟上略逊于专精此道的 v10。

YOLO26 (YOLOv12)：
当下的终极形态优势：
劣势：模型刚刚成熟，社区现成的针对性魔改插件（如特定的注意力机制集成）相对较少。

决策对照表：

给开发者的建议：
如果是新项目，直接从YOLO11或YOLO26入手。
如果是工业部署，优先考虑是否有成熟的 TensorRT 适配案例，此时YOLOv8或v10可能是性价比最高的选择。
不要迷信版本号，适合你部署平台（Nvidia vs NPU vs CPU）的版本才是最好的版本。

手动升级1panel 容器中的应用系统方法

一把老骨头 — Fri, 20 Mar 2026 14:11:11 +0800

1、从https://docker.aityp.com 镜像仓库中下载镜像（风险未知）
2、从1panel中导入镜像
3、从容器中升级，修改版本号，或从镜像进行更新

芜湖全国第一，力秒合肥！

一把老骨头 — Fri, 13 Mar 2026 19:26:01 +0800

龙虾OpenClaw终于正常了！附健康状况离线的错误解决办法。

一把老骨头 — Wed, 11 Mar 2026 20:33:20 +0800

原先显示错误：

解决办法：
1、在OPENCLAW安装目录下找到openclaw.json文件
2、打开文件，找到token后的字符复制下来
3、进行openclaw主页面，找到“概览”--“网关令牌”，粘贴复制下来的TOKEN
4、点左下角“连接”。

阿里的COPAW升级好快，才一天就到0.0.6了！

一把老骨头 — Wed, 11 Mar 2026 11:34:36 +0800

阿里COPAW又升级了！期待新变化.....

一把老骨头 — Tue, 10 Mar 2026 16:00:48 +0800