硬件与部署 推理速度优化

我正在为Skyrim + AI设置试验小型LLM。我对Qwen的推理速度感到惊讶。

讨论围绕在Skyrim游戏中使用AI框架和Qwen模型,重点关注推理速度、硬件需求和模型推荐,总体氛围积极且充满探索精神。

 ·  · 
硬件与部署 推理速度优化

MLX 批量生成非常酷!

讨论围绕 MLX paraLLM 库的批量生成速度提升和能量效率展开,涉及模型转换、内存使用和用户体验等多个方面。

 ·  · 
硬件与部署 推理速度优化

Qwen2-VL-72B-Instruct-GPTQ-Int4 在 4x P100 上运行 @ 24 tok/s

讨论围绕Qwen2-VL-72B-Instruct-GPTQ-Int4模型在不同硬件配置下的性能表现展开,涉及模型优化、视频处理、兼容性问题等多个技术话题。

 ·  · 
硬件与部署 推理速度优化

OLMoE 7B 在低端 GPU 和 CPU 上运行速度很快

讨论主要围绕 OLMoE 7B 模型在低端 GPU 和 CPU 上的性能表现,涉及模型速度、翻译质量、多语言支持及技术配置等方面。

 ·  · 
硬件与部署 推理速度优化

Llama 3.1 70b在RTX 4090上以60 tok/s运行(IQ2_XS)

讨论围绕 Llama 3.1 70b 在 RTX 4090 上的性能表现展开,涉及量化技术、模型输出质量、编程任务等多个方面,总体氛围技术性强,带有一定的好奇和质疑。

 ·  · 
硬件与部署 推理速度优化

Jan现在在CPU上运行得更快

讨论围绕Jan在CPU性能上的显著提升展开,涉及开源、未来功能、用户反馈等多个方面,总体氛围积极,用户期待新功能和改进。

 ·  · 
硬件与部署 推理速度优化

Hugging Face 优化了 Segment Anything 2 (SAM 2),使其能够在设备上(Mac/iPhone)运行,推理时间在亚秒级!

讨论围绕 Hugging Face 优化的 Segment Anything 2 (SAM 2) 模型在 Mac/iPhone 设备上的亚秒级推理运行展开,涉及技术优化、开源应用、未来技术展望等多个方面。

 ·  · 
硬件与部署 推理速度优化

推理速度基准测试 - Tabby API 中的张量并行和推测性解码

讨论围绕Tabby API在多GPU设置下的推理速度基准测试展开,重点关注张量并行和推测解码的效果,发现操作系统、NVLink、VRAM使用等因素对性能有显著影响。

 ·  · 
硬件与部署 推理速度优化

在runpod.io上不同GPU的Ollama LLM基准测试

讨论围绕在不同GPU上运行Ollama LLM的性能测试展开,涉及模型大小、量化版本、上下文和响应大小等因素,探讨了性能、成本和性价比。

 ·  · 
硬件与部署 推理速度优化

Z1 extreme (rog allyX 版本) 与 8700G 在 LLM 推理中的对比

讨论主要围绕Z1 Extreme与8700G在LLM推理性能上的对比,涉及内存带宽、CU数量、未来APU发展及Linux系统下的优化。

 ·  ·