硬件与部署 推理速度优化

AMD MI60与vLLM助力Llama3.3 70B达20 tokens/s

[原帖分享2x AMD MI60使Llama3.3 70B达到20 tokens/s的成果,评论涉及AMD卡的意义、技术问题、硬件选择等,整体氛围积极且充满技术探讨]

 ·  · 
硬件与部署 推理速度优化

笔记本电脑上Llama 3.3 70B的推理速度

[原帖分享笔记本运行Llama 3.3 70B的推理速度,众多用户参与讨论,分享各自设备运行情况、性能数据,涉及硬件配置、量化方式、提示使用等多方面对速度的影响,整体氛围积极交流分享]

 ·  · 
硬件与部署 推理速度优化

使用LM Studio测试MLX模型:推理速度小增但内存大增

[原帖作者分享MLX模型测试情况,发现性能提升小且内存占用多,评论者从不同角度讨论MLX模型与GGUF模型的性能、响应质量、资源占用等情况]

 ·  · 
硬件与部署 推理速度优化

Llama 3.1 405B在Cerebras推理平台上每秒运行969个令牌

[围绕Llama 3.1 405B在Cerebras上的运行情况,从技术、价格、应用场景、市场竞争等多方面展开讨论,氛围理性且充满探索性]

 ·  · 
硬件与部署 推理速度优化

GPU速度与每秒令牌数和功耗[测试结果]

[原帖分享GPU速度与每秒标记数和功耗关系的测试结果并寻求看法,评论者们围绕GPU性能、功耗优化、模型测试、硬件相关等话题展开讨论,氛围较为积极且充满探索性]

 ·  · 
硬件与部署 推理速度优化

NVIDIA在Blackwell上推理速度提升15倍的真相

[关于NVIDIA在Blackwell上推理速度提升15倍这一说法,大家主要持怀疑态度,认为有营销手段之嫌,同时还探讨了相关的技术问题、产品情况等内容,整体氛围是质疑和探讨]

 ·  · 
硬件与部署 推理速度优化

vLLM较llama.cpp同机分布式推理性能快超70%

[在对vLLM和llama.cpp进行分布式推理性能测试后发现vLLM比llama.cpp快70%以上,大家围绕二者性能差异展开讨论,有对结果的预期、性能提升的探讨、技术对比等多方面的交流]

 ·  · 
硬件与部署 推理速度优化

M3 Max上Ollama、MLX与Llama.cpp速度对比揭秘

讨论围绕Ollama、MLX-LM和Llama.cpp在M3 Max上的速度测试结果展开,主要关注性能差异的原因、测试参数的一致性以及模型配置的影响。

 ·  · 
硬件与部署 推理速度优化

Koboldcpp速度远超LM Studio,提升大模型处理效率

部分用户在实际使用中并未感受到预期的速度提升。

 ·  · 
硬件与部署 推理速度优化

通过降压实现静音快速推理

讨论主要围绕通过降压和超频来提高硬件性能、降低功耗和噪音,同时也探讨了这些方法可能带来的风险和替代方案。

 ·  ·