下载地址网上查, 文学城不让发

现在有很多加速和增加 ctx-size的法子,支持MTP的llama.cpp,我的速度可以到60-65左右,支持MTP 的 vLLM的windows版本可以到75, 但是需要多占2-3G的图形卡内存, 就用不了大的ctx-size。我试了最大也就到130K 左右。 所以我用llama.cpp 和 Q4_K_XL,180K的ctx-size 时间多一些 ,Q5_K_M的ctx-size上限估计为145K。 

请您先登陆,再发跟帖!