模型与技术 量化与优化

5位量化与4位KV缓存?

讨论围绕在使用4位KV缓存时,是否应使用高于4位的量化模型,涉及模型性能、显存效率和具体配置的影响。

 ·  ·