下载地址网上查，文学城不让发

来源: pichawxc 于 2026-05-17 17:40:36 [档案] [博客] [旧帖] [给我悄悄话] 阅读数 : (396 bytes)

回答: RTX 3090 跑Qwen3.6-27B-Q5_K_M居然能到20 token/s？由 jasonshane 于 2026-05-16 00:02:02

现在有很多加速和增加 ctx-size的法子，支持MTP的llama.cpp，我的速度可以到60-65左右，支持MTP 的 vLLM的windows版本可以到75，但是需要多占2-3G的图形卡内存，就用不了大的ctx-size。我试了最大也就到130K 左右。所以我用llama.cpp 和 Q4_K_XL，180K的ctx-size 时间多一些，Q5_K_M的ctx-size上限估计为145K。

您的位置：文学城 » 论坛 » 实用电脑 » 下载地址网上查，文学城不让发

请您先登陆，再发跟帖！

下载地址网上查， 文学城不让发

下载地址网上查，文学城不让发