虽然下层ollama也是用llama.cpp.
Qwen3.6-27B-Q5_K_M.gguf3090的初始速度可以到35,你应该可以到40。 你速度慢的一个主要原因,是没有用CUDA编译的ollama。llama.cpp 也可以自己编译或者下载有CUDA支持的llama.cpp。我用的参数如下:模型各种表现都不错。 --cache-ram 32768 ^ 可以不要 --threads 6 ^ 可以减少。
虽然下层ollama也是用llama.cpp.
Qwen3.6-27B-Q5_K_M.gguf3090的初始速度可以到35,你应该可以到40。 你速度慢的一个主要原因,是没有用CUDA编译的ollama。llama.cpp 也可以自己编译或者下载有CUDA支持的llama.cpp。我用的参数如下:模型各种表现都不错。 --cache-ram 32768 ^ 可以不要 --threads 6 ^ 可以减少。
WENXUECITY.COM does not represent or guarantee the truthfulness, accuracy, or reliability of any of communications posted by other users.
Copyright ©1998-2026 wenxuecity.com All rights reserved. Privacy Statement & Terms of Use & User Privacy Protection Policy