硬件与部署 性能优化

llama.cpp的RPC性能

[关于llama.cpp的RPC性能,有人认可其性能良好,也有人指出存在性能损耗、功能限制等问题,同时还涉及到文档改进、资源分配、量化模型等多方面的讨论]

 ·  · 
硬件与部署 性能优化

使用推测解码优化Llama.cpp以实现每秒最大令牌数

[原帖作者寻求提高Llama.cpp性能的方法,众多评论者给出了包括模型调整、编译设置等多方面的建议,同时也分享了不同设备上的性能情况,整体讨论氛围较为积极]

 ·  · 
硬件与部署 性能优化

AMD Ryzen AI 300系列加速消费级LLM应用中的Llama.cpp性能

[该讨论围绕AMD在消费者LLM应用中加速Llama.cpp性能展开,涉及AMD产品的性能、性价比、目标定位等多方面,既有对AMD产品和策略的质疑与失望,也有期待和部分肯定,整体氛围较复杂。]

 ·  · 
模型与技术 性能优化

尝试这些设置以延长(或甚至缩短)LLama 3.1的上下文大小。(特别是对于RP)

讨论主要围绕如何通过调整LLama 3.1的采样器设置来优化模型表现,涉及禁用top-P和top-K、使用低重复惩罚、min-P和DRY等技术细节,同时也有关于修改默认标签和使用Koboldcpp的建议。

 ·  · 
硬件与部署 性能优化

如何提高分类任务的速度?我应该放弃Ollama和LlamaIndex吗?

讨论围绕如何提高分类任务的速度,主要集中在优化GPU和CPU使用、选择更高效的模型和工具,以及并行化处理等方面。

 ·  · 
硬件与部署 性能优化

LLM-speed-benchmark,一个易于使用的工具,通过API直接测量模型的性能

讨论围绕一个易于使用的LLM速度基准工具展开,主要关注其性能测量和潜在改进建议。

 ·  · 
模型与技术 性能优化

更快的三元推理是可能的

讨论了在不使用定制硬件的情况下,通过优化算法和利用现有的CPU指令集(如AVX2),实现了三元模型(ternary models)的运行速度提升,具体达到了2倍的速度提升。

 ·  · 
模型与技术 性能优化

[新手求助] 有没有办法提高Llama3.1在对话中的注意力?

讨论集中在如何通过调整上下文大小和使用系统提示来提高Llama3.1模型在对话中的注意力持久性。

 ·  · 
硬件与部署 性能优化

带有负载均衡器的Llama.cpp比阿芙罗狄蒂更快??

讨论围绕在本地运行大型语言模型时,使用llama.cpp结合负载均衡器Paddler比Aphrodite更快的问题,涉及性能优化、量化技术和社区建议。

 ·  · 
硬件与部署 性能优化

Llama 3.1 405B Q5_K_M 在 AMD Epyc 9374F 上的实时性能表现

讨论围绕Llama 3.1 405B Q5_K_M模型在AMD Epyc 9374F上的实时性能展开,涉及tokens处理速度、硬件配置、推测性采样等多个技术细节和市场竞争。

 ·  ·