不知道为啥有禁词:llama.cpp 稳定性和速度都是较好的

虽然下层ollama也是用llama.cpp. 

Qwen3.6-27B-Q5_K_M.gguf3090的初始速度可以到35,你应该可以到40。 你速度慢的一个主要原因,是没有用CUDA编译的ollama。llama.cpp 也可以自己编译或者下载有CUDA支持的llama.cpp。我用的参数如下:模型各种表现都不错。    --cache-ram 32768 ^  可以不要  --threads 6 ^  可以减少。

 

请您先登陆,再发跟帖!