我4090 都跑不到10 t/s? 用Q4的勉强到15 t/s, 有什么诀窍吗?我是用ollama + claude code
RTX 3090 跑Qwen3.6-27B-Q5_K_M居然能到20 token/s?
所有跟帖:
•
我现在用3090 和 llama.cpp跑Q5_K_M速度能到35, 文本超过130K时下降为20 T/S 下面是参数设
-pichawxc-
♂
(1211 bytes)
()
05/17/2026 postreply
17:35:05
•
不知道为啥有禁词:llama.cpp 稳定性和速度都是较好的
-pichawxc-
♂
(454 bytes)
()
05/17/2026 postreply
17:38:37
•
下载地址网上查, 文学城不让发
-pichawxc-
♂
(396 bytes)
()
05/17/2026 postreply
17:40:36