不知道为啥有禁词：llama.cpp 稳定性和速度都是较好的

来源: pichawxc 于 2026-05-17 17:38:37 [档案] [博客] [旧帖] [给我悄悄话] 阅读数 : (454 bytes)

回答: RTX 3090 跑Qwen3.6-27B-Q5_K_M居然能到20 token/s？由 jasonshane 于 2026-05-16 00:02:02

虽然下层ollama也是用llama.cpp.

Qwen3.6-27B-Q5_K_M.gguf3090的初始速度可以到35，你应该可以到40。你速度慢的一个主要原因，是没有用CUDA编译的ollama。llama.cpp 也可以自己编译或者下载有CUDA支持的llama.cpp。我用的参数如下：模型各种表现都不错。 --cache-ram 32768 ^ 可以不要 --threads 6 ^ 可以减少。

您的位置：文学城 » 论坛 » 实用电脑 » 不知道为啥有禁词：llama.cpp 稳定性和速度都是较好的

请您先登陆，再发跟帖！