硬件与部署 推理速度优化

NVIDIA在Blackwell上推理速度提升15倍的真相

[关于NVIDIA在Blackwell上推理速度提升15倍这一说法,大家主要持怀疑态度,认为有营销手段之嫌,同时还探讨了相关的技术问题、产品情况等内容,整体氛围是质疑和探讨]

 ·  · 
硬件与部署 推理速度优化

vLLM较llama.cpp同机分布式推理性能快超70%

[在对vLLM和llama.cpp进行分布式推理性能测试后发现vLLM比llama.cpp快70%以上,大家围绕二者性能差异展开讨论,有对结果的预期、性能提升的探讨、技术对比等多方面的交流]

 ·  · 
硬件与部署 推理速度优化

M3 Max上Ollama、MLX与Llama.cpp速度对比揭秘

讨论围绕Ollama、MLX-LM和Llama.cpp在M3 Max上的速度测试结果展开,主要关注性能差异的原因、测试参数的一致性以及模型配置的影响。

 ·  · 
硬件与部署 推理速度优化

Koboldcpp速度远超LM Studio,提升大模型处理效率

部分用户在实际使用中并未感受到预期的速度提升。

 ·  · 
硬件与部署 推理速度优化

通过降压实现静音快速推理

讨论主要围绕通过降压和超频来提高硬件性能、降低功耗和噪音,同时也探讨了这些方法可能带来的风险和替代方案。

 ·  · 
硬件与部署 推理速度优化

我正在使用双RTX 4080 GPU和Mac Studio通过GPUStack进行分布式推理,基于llama.cpp。尽管通过40GB/s的Thunderbolt连接,吞吐量仍保持在每秒10-12个token。瓶颈在哪里?有什么改进建议吗?

讨论围绕使用双 RTX 4080 GPU 和 Mac Studio 进行分布式推理时的吞吐量瓶颈展开,涉及硬件配置、模型量化、张量并行等技术细节,社区成员积极提供解决方案和建议。

 ·  · 
硬件与部署 推理速度优化

有人知道为什么Llama 3.2 3b在OpenRouter上比1b便宜得多吗?是偶然的吗?

讨论主要围绕OpenRouter平台上Llama 3.2 3b模型价格低于1b模型的现象,探讨了模型托管、API使用、资源管理和成本效益等多个方面的原因和影响。

 ·  · 
硬件与部署 推理速度优化

在8GB VRAM上运行405B LLaMa - AirLLM

讨论围绕在8GB VRAM上运行405B LLaMa模型的可行性和性能问题,涉及技术细节、速度、成本和实用性。

 ·  · 
硬件与部署 推理速度优化

刚刚获得了Cerebras的访问权限。每秒2,000个token。

讨论围绕Cerebras高性能计算平台的速度和应用展开,涉及技术细节、访问权限、成本效益和潜在风险,总体情感偏向期待和好奇。

 ·  · 
硬件与部署 推理速度优化

低上下文速度比较:MacBook、Mac Studio 和 RTX 4090

讨论主要围绕不同硬件设备在处理大型语言模型时的性能对比,特别是RTX 4090、M2 Max Macbook Pro、M1 Ultra Mac Studio和M2 Ultra Mac Studio的性能差异,以及如何通过优化工具和配置提升处理速度。

 ·  ·