现在有很多加速和增加 ctx-size的法子,支持MTP的llama.cpp,我的速度可以到60-65左右,支持MTP 的 vLLM的windows版本可以到75, 但是需要多占2-3G的图形卡内存, 就用不了大的ctx-size。我试了最大也就到130K 左右。 所以我用llama.cpp 和 Q4_K_XL,180K的ctx-size 时间多一些 ,Q5_K_M的ctx-size上限估计为145K。
现在有很多加速和增加 ctx-size的法子,支持MTP的llama.cpp,我的速度可以到60-65左右,支持MTP 的 vLLM的windows版本可以到75, 但是需要多占2-3G的图形卡内存, 就用不了大的ctx-size。我试了最大也就到130K 左右。 所以我用llama.cpp 和 Q4_K_XL,180K的ctx-size 时间多一些 ,Q5_K_M的ctx-size上限估计为145K。
WENXUECITY.COM does not represent or guarantee the truthfulness, accuracy, or reliability of any of communications posted by other users.
Copyright ©1998-2026 wenxuecity.com All rights reserved. Privacy Statement & Terms of Use & User Privacy Protection Policy