本地 AI 部署心得

最近两个模型比较热门:Qwen3.5-27B 和谷歌的小模型 Gemma 4 31B。我也做了一些实际测试,整体来看,Qwen3.5-27B 表现非常不错,基本可以胜任本地自动化编程任务。

一、硬件部分

1. GPU(核心)
建议显存 24–32GB。虽然目前有 AMD、Intel、英伟达、DGX 以及苹果 Mac Studio / Ultra 等多种选择,但对于 20GB 级别的稠密模型来说,英伟达消费级显卡在性价比和生态上仍然是首选!例如 RTX 3090、4090。

  • 实际体验:
    • 推理速度低于 15 token/s 时,本地编程实用性明显下降
    • RTX 3090 初始速度约 30–40 token/s(取决于模型)
    • 长上下文(150K–180K)下降至约 20 token/s
  • 关键结论:
    推理速度主要取决于显存带宽,与其它 GPU 算力关系不大。 RTX 4090 相比 3090 提升大约只有 ~10%

2. CPU 和内存
要求相对较低:

  • CPU 性能影响不大
  • 内存建议 ≥ 32GB, 我现在内存64GB大致有10-20GB空置。
  • 内存带宽影响也有限

3. 操作系统

  • Linux 稍快,但使用不够方便。
  • Windows 与 WSL 差异不大,部署难度接近

4. 显示输出优化

建议将显示器连接主板 iGPU 输出,可释放约 0.3–1GB 显存用于模型推理。

二、模型选择

首选模型:Qwen3.5-27B

  • 综合能力接近主流在线付费模型
  • 40B 以下模型大多数无需再测试(完败给Qwen3.5-27B
  • Qwen3.6-27B released! : r/LocalLLaMA

可选量化模型:

  • unsloth Qwen3.6-27B-UD-Q4_K_XL.gguf(约 17GB, ctx-size=160K)
  • unsloth Qwen3.6-27B-Q5_K_M.gguf(约 19GB, ctx-size=110K) Q5_K_M 模型质量要好不少,但是只适合不太复杂的情况。最理想情况是跑Q6或者Q8。

注意:

  • 上面两个模型,需预留 ≥4GB 显存用于 KV cache(长上下文)
  • 因为GPU存储的限制,更大的模型基本只能用于对话,不适合长文本编程。

三、软件部分

1. 推理框架

  • 首选:llama.cpp(Linux / Windows 均可)
  • 建议单用户使用

llama.cpp的一些优化分支(提升速度 / 减少缓存)仍不成熟,例如:

  • TurboQuant 分支:
    • 支持超长上下文(3090卡:ctx-size >180K)
    • 但速度下降约 50%

2. 编程工具

可选方案很多,本地 LLM 基本都能接入:

  • Claude Code(更稳定)
  • Open Code(灵活性更强)
  • VS Code (更直观,有利个人参与)

3. 多 Agent 协作

Hermes 在以下方面很有帮助:

  • 软件设计
  • 任务规划
  • 测试管理

推荐工作流:

  • Hermes:负责规划与拆解任务
  • Claude Code:执行代码生成

优点:

  • 两者共享本地模型,理解一致
  • 协作效率较高

局限:

  • 高层设计仍建议借助云端模型辅助
  • 有运行到死胡同现象,人需要干预,让推理死胡同中跳出来。这在小模型上比较常见,Qwen3.6-27B还能忍受。就是云端模型也有这个现象。

四、测试结果

1. 推理与长文本能力

  • Qwen3.5-27B 在推理和长上下文测试中表现稳定
  • 之前需要与 Claude 4.5 多轮交互的问题,现在基本一次完成

四、测试结果

1. 推理与长文本能力

  • Qwen3.5-27B 在推理和长上下文测试中表现稳定
  • 之前需要与 Claude 4.5 多轮交互的问题,现在基本一次完成,但现今云端模型仍然有优势 (都这么说)。

2. 编程测试

进行了从 0 开始的项目复刻测试:

  • DOOM(Python):
    • 约 150 个文件
    • 用时 3 -4天(未使用 Hermes)
  • RuneScape 类项目:
    • 约 50 个文件
    • 用时 1 天(使用 Hermes)

 测试均取得良好开端!

五、整体感受

 

本地模型已经进入“可用阶段”,不再是“能跑但不好用”的状态。RuneScape有一个Bug我让Hermes查,Hermes奔溃。让云端Claude查,查了一段时间也查不出,进入死胡同。Open code 也崩溃了。最后是当地Claude Code和我一起查出 (Claude Code看不到机器上的一些运行数据,我需要查到后给它)

当前瓶颈:

  • 24GB 显存在复杂任务下开始吃紧。跑大模型显存总在吃紧状态,我以前编的软件,自己做的也都在100个文件以下,24GB大致凑合用。

现在上下文长度常在 100K–150K 波动,实在没有办法,就用TurboQuant。
 

请您先登陆,再发跟帖!