硬件与部署 推理速度优化

我正在使用双RTX 4080 GPU和Mac Studio通过GPUStack进行分布式推理,基于llama.cpp。尽管通过40GB/s的Thunderbolt连接,吞吐量仍保持在每秒10-12个token。瓶颈在哪里?有什么改进建议吗?

讨论围绕使用双 RTX 4080 GPU 和 Mac Studio 进行分布式推理时的吞吐量瓶颈展开,涉及硬件配置、模型量化、张量并行等技术细节,社区成员积极提供解决方案和建议。

 ·  · 
硬件与部署 推理速度优化

有人知道为什么Llama 3.2 3b在OpenRouter上比1b便宜得多吗?是偶然的吗?

讨论主要围绕OpenRouter平台上Llama 3.2 3b模型价格低于1b模型的现象,探讨了模型托管、API使用、资源管理和成本效益等多个方面的原因和影响。

 ·  · 
硬件与部署 推理速度优化

在8GB VRAM上运行405B LLaMa - AirLLM

讨论围绕在8GB VRAM上运行405B LLaMa模型的可行性和性能问题,涉及技术细节、速度、成本和实用性。

 ·  · 
硬件与部署 推理速度优化

刚刚获得了Cerebras的访问权限。每秒2,000个token。

讨论围绕Cerebras高性能计算平台的速度和应用展开,涉及技术细节、访问权限、成本效益和潜在风险,总体情感偏向期待和好奇。

 ·  · 
硬件与部署 推理速度优化

低上下文速度比较:MacBook、Mac Studio 和 RTX 4090

讨论主要围绕不同硬件设备在处理大型语言模型时的性能对比,特别是RTX 4090、M2 Max Macbook Pro、M1 Ultra Mac Studio和M2 Ultra Mac Studio的性能差异,以及如何通过优化工具和配置提升处理速度。

 ·  · 
硬件与部署 推理速度优化

我正在为Skyrim + AI设置试验小型LLM。我对Qwen的推理速度感到惊讶。

讨论围绕在Skyrim游戏中使用AI框架和Qwen模型,重点关注推理速度、硬件需求和模型推荐,总体氛围积极且充满探索精神。

 ·  · 
硬件与部署 推理速度优化

MLX 批量生成非常酷!

讨论围绕 MLX paraLLM 库的批量生成速度提升和能量效率展开,涉及模型转换、内存使用和用户体验等多个方面。

 ·  · 
硬件与部署 推理速度优化

Qwen2-VL-72B-Instruct-GPTQ-Int4 在 4x P100 上运行 @ 24 tok/s

讨论围绕Qwen2-VL-72B-Instruct-GPTQ-Int4模型在不同硬件配置下的性能表现展开,涉及模型优化、视频处理、兼容性问题等多个技术话题。

 ·  · 
硬件与部署 推理速度优化

OLMoE 7B 在低端 GPU 和 CPU 上运行速度很快

讨论主要围绕 OLMoE 7B 模型在低端 GPU 和 CPU 上的性能表现,涉及模型速度、翻译质量、多语言支持及技术配置等方面。

 ·  · 
硬件与部署 推理速度优化

Llama 3.1 70b在RTX 4090上以60 tok/s运行(IQ2_XS)

讨论围绕 Llama 3.1 70b 在 RTX 4090 上的性能表现展开,涉及量化技术、模型输出质量、编程任务等多个方面,总体氛围技术性强,带有一定的好奇和质疑。

 ·  ·