硬件与部署 推理速度优化

分享你的llama3.1:70b每秒令牌数

Reddit帖子讨论了“llama3.1:70b”模型的每秒令牌生成速度,涉及多种硬件配置、量化模型和后端设置,用户分享了各自的性能数据和经验。

 ·  · 
硬件与部署 推理速度优化

Llama 3.1在GPU实例上进行推理的最快路径是什么?

讨论集中在如何在不同GPU配置下实现Llama 3.1-8B模型的最快推理,涉及多种框架和技术,以及本地部署的优化策略。

 ·  · 
硬件与部署 推理速度优化

语言模型在4块GeForce 4060 Ti上运行非常慢(3.7 t/s),在6块GeForce 4060 Ti上速度同样缓慢...为什么?

讨论围绕在小型公司使用GeForce 4060 Ti显卡运行大型语言模型时遇到的性能瓶颈,主要关注内存带宽和GPU利用率问题,寻求解决方案和硬件升级建议。

 ·  · 
硬件与部署 推理速度优化

本地DeepSeeK-V2推理:预填充每秒120次,解码每秒14次,仅使用21GB 4090和136GB DRAM,基于Transformer技术

讨论围绕KTransformers框架的性能优化、模型支持、硬件兼容性和未来发展展开,用户对框架的灵活性和优化性能表示赞赏,并期待更多功能和模型支持。

 ·  · 
硬件与部署 推理速度优化

显卡上使用多模型还是单模型以提高速度

讨论了在16GB VRAM显卡上运行多个8GB量化模型的效率问题,主要关注批处理后端的使用和模型并发处理的策略。

 ·  ·