模型与技术 性能优化

更快的三元推理是可能的

讨论了在不使用定制硬件的情况下,通过优化算法和利用现有的CPU指令集(如AVX2),实现了三元模型(ternary models)的运行速度提升,具体达到了2倍的速度提升。

 ·  · 
模型与技术 性能优化

[新手求助] 有没有办法提高Llama3.1在对话中的注意力?

讨论集中在如何通过调整上下文大小和使用系统提示来提高Llama3.1模型在对话中的注意力持久性。

 ·  · 
硬件与部署 性能优化

带有负载均衡器的Llama.cpp比阿芙罗狄蒂更快??

讨论围绕在本地运行大型语言模型时,使用llama.cpp结合负载均衡器Paddler比Aphrodite更快的问题,涉及性能优化、量化技术和社区建议。

 ·  · 
硬件与部署 性能优化

Llama 3.1 405B Q5_K_M 在 AMD Epyc 9374F 上的实时性能表现

讨论围绕Llama 3.1 405B Q5_K_M模型在AMD Epyc 9374F上的实时性能展开,涉及tokens处理速度、硬件配置、推测性采样等多个技术细节和市场竞争。

 ·  ·