RTX 3090 跑Qwen3.6-27B-Q5_K_M居然能到20 token/s?

回答: 本地 AI 部署心得pichawxc2026-05-05 12:20:26

我4090 都跑不到10 t/s? 用Q4的勉强到15 t/s, 有什么诀窍吗?我是用ollama + claude code

所有跟帖: 

我现在用3090 和 llama.cpp跑Q5_K_M速度能到35, 文本超过130K时下降为20 T/S 下面是参数设 -pichawxc- 给 pichawxc 发送悄悄话 pichawxc 的博客首页 (1211 bytes) () 05/17/2026 postreply 17:35:05

不知道为啥有禁词:llama.cpp 稳定性和速度都是较好的 -pichawxc- 给 pichawxc 发送悄悄话 pichawxc 的博客首页 (454 bytes) () 05/17/2026 postreply 17:38:37

下载地址网上查, 文学城不让发 -pichawxc- 给 pichawxc 发送悄悄话 pichawxc 的博客首页 (396 bytes) () 05/17/2026 postreply 17:40:36

请您先登陆,再发跟帖!