本地 AI 部署心得

来源: pichawxc 于 2026-05-05 12:20:26 [档案] [博客] [旧帖] [给我悄悄话] 阅读数 : (84710 bytes)

最近两个模型比较热门：Qwen3.5-27B 和谷歌的小模型 Gemma 4 31B。我也做了一些实际测试，整体来看，Qwen3.5-27B 表现非常不错，基本可以胜任本地自动化编程任务。

一、硬件部分

1. GPU（核心）
建议显存 24–32GB。虽然目前有 AMD、Intel、英伟达、DGX 以及苹果 Mac Studio / Ultra 等多种选择，但对于 20GB 级别的稠密模型来说，英伟达消费级显卡在性价比和生态上仍然是首选！例如 RTX 3090、4090。

实际体验：
- 推理速度低于 15 token/s 时，本地编程实用性明显下降
- RTX 3090 初始速度约 30–40 token/s（取决于模型）
- 长上下文（150K–180K）下降至约 20 token/s
关键结论：
推理速度主要取决于显存带宽，与其它 GPU 算力关系不大。 RTX 4090 相比 3090 提升大约只有 ~10%

2. CPU 和内存
要求相对较低：

CPU 性能影响不大
内存建议 ≥ 32GB，我现在内存64GB大致有10-20GB空置。
内存带宽影响也有限

3. 操作系统

Linux 稍快，但使用不够方便。
Windows 与 WSL 差异不大，部署难度接近

4. 显示输出优化

建议将显示器连接主板 iGPU 输出，可释放约 0.3–1GB 显存用于模型推理。

二、模型选择

首选模型：Qwen3.5-27B

综合能力接近主流在线付费模型
40B 以下模型大多数无需再测试（完败给Qwen3.5-27B）

可选量化模型：

unsloth Qwen3.6-27B-UD-Q4_K_XL.gguf（约 17GB， ctx-size=160K）
unsloth Qwen3.6-27B-Q5_K_M.gguf（约 19GB， ctx-size=110K） Q5_K_M 模型质量要好不少，但是只适合不太复杂的情况。最理想情况是跑Q6或者Q8。

注意：

上面两个模型，需预留 ≥4GB 显存用于 KV cache（长上下文）
因为GPU存储的限制，更大的模型基本只能用于对话，不适合长文本编程。

三、软件部分

1. 推理框架

首选：llama.cpp（Linux / Windows 均可）
建议单用户使用

llama.cpp的一些优化分支（提升速度 / 减少缓存）仍不成熟，例如：

TurboQuant 分支：
- 支持超长上下文（3090卡：ctx-size >180K）
- 但速度下降约 50%

2. 编程工具

可选方案很多，本地 LLM 基本都能接入：

Claude Code（更稳定）
Open Code（灵活性更强）
VS Code (更直观，有利个人参与)

3. 多 Agent 协作

Hermes 在以下方面很有帮助：

软件设计
任务规划
测试管理

推荐工作流：

Hermes：负责规划与拆解任务
Claude Code：执行代码生成

优点：

两者共享本地模型，理解一致
协作效率较高

局限：

高层设计仍建议借助云端模型辅助
有运行到死胡同现象，人需要干预，让推理死胡同中跳出来。这在小模型上比较常见，Qwen3.6-27B还能忍受。就是云端模型也有这个现象。

四、测试结果

1. 推理与长文本能力

Qwen3.5-27B 在推理和长上下文测试中表现稳定
之前需要与 Claude 4.5 多轮交互的问题，现在基本一次完成

四、测试结果

1. 推理与长文本能力

Qwen3.5-27B 在推理和长上下文测试中表现稳定
之前需要与 Claude 4.5 多轮交互的问题，现在基本一次完成，但现今云端模型仍然有优势（都这么说）。

2. 编程测试

进行了从 0 开始的项目复刻测试：

DOOM（Python）：
- 约 150 个文件
- 用时 3 -4天（未使用 Hermes）
RuneScape 类项目：
- 约 50 个文件
- 用时 1 天（使用 Hermes）

测试均取得良好开端！

五、整体感受

本地模型已经进入“可用阶段”，不再是“能跑但不好用”的状态。RuneScape有一个Bug我让Hermes查，Hermes奔溃。让云端Claude查，查了一段时间也查不出，进入死胡同。Open code 也崩溃了。最后是当地Claude Code和我一起查出（Claude Code看不到机器上的一些运行数据，我需要查到后给它）

当前瓶颈：