硬件与部署 推理速度优化

如果可以,我应该以全精度运行模型吗?

讨论围绕是否应使用全精度运行模型,特别是针对 llama3.1 8b 模型使用 fp16 精度,涉及量化模型与全精度模型的性能比较、硬件限制和精度选择。

 ·  · 
硬件与部署 推理速度优化

骁龙X CPU推理速度快!(Q_4_0_4_8量化)

讨论围绕Snapdragon X CPU在量化技术下的推理速度展开,涉及性能优化、硬件对比、内存限制等多个方面,总体氛围积极,但也存在一些争议和不满。

 ·  · 
硬件与部署 推理速度优化

DeepSeek API 引入磁盘上下文缓存,输入令牌价格降至十分之一

DeepSeek API引入磁盘上下文缓存功能,大幅降低输入令牌价格,引发广泛讨论其成本优势、技术改进及潜在影响。

 ·  · 
硬件与部署 推理速度优化

在使用Llama-3.1 70B处理长上下文(8000+个标记)时,llama.cpp服务器在响应第一个标记之前需要26秒来处理上下文。而TabbyAPI/exllamav2则是即时的。这是我的问题,llama.cpp的问题,都不是,两者都有点,还是完全其他原因?

讨论围绕llama.cpp处理长上下文时的性能问题,主要通过设置cache_prompt和代码修改来优化,同时探讨了TabbyAPI和ExllamaV2的性能优势。

 ·  · 
硬件与部署 推理速度优化

哇,SambaNova在他们ASIC硬件上让llama 405B达到了每秒超过100个令牌,而且你无需注册或任何手续就能使用。

讨论围绕SambaNova公司使用ASIC硬件在llama 405B模型上实现高速处理能力展开,涉及商业模式、数据隐私、性能比较等多个方面。

 ·  · 
硬件与部署 推理速度优化

分享你的llama3.1:70b每秒令牌数

Reddit帖子讨论了“llama3.1:70b”模型的每秒令牌生成速度,涉及多种硬件配置、量化模型和后端设置,用户分享了各自的性能数据和经验。

 ·  · 
硬件与部署 推理速度优化

Llama 3.1在GPU实例上进行推理的最快路径是什么?

讨论集中在如何在不同GPU配置下实现Llama 3.1-8B模型的最快推理,涉及多种框架和技术,以及本地部署的优化策略。

 ·  · 
硬件与部署 推理速度优化

语言模型在4块GeForce 4060 Ti上运行非常慢(3.7 t/s),在6块GeForce 4060 Ti上速度同样缓慢...为什么?

讨论围绕在小型公司使用GeForce 4060 Ti显卡运行大型语言模型时遇到的性能瓶颈,主要关注内存带宽和GPU利用率问题,寻求解决方案和硬件升级建议。

 ·  · 
硬件与部署 推理速度优化

本地DeepSeeK-V2推理:预填充每秒120次,解码每秒14次,仅使用21GB 4090和136GB DRAM,基于Transformer技术

讨论围绕KTransformers框架的性能优化、模型支持、硬件兼容性和未来发展展开,用户对框架的灵活性和优化性能表示赞赏,并期待更多功能和模型支持。

 ·  · 
硬件与部署 推理速度优化

显卡上使用多模型还是单模型以提高速度

讨论了在16GB VRAM显卡上运行多个8GB量化模型的效率问题,主要关注批处理后端的使用和模型并发处理的策略。

 ·  ·