硬件与部署 推理速度优化

Jan现在在CPU上运行得更快

讨论围绕Jan在CPU性能上的显著提升展开,涉及开源、未来功能、用户反馈等多个方面,总体氛围积极,用户期待新功能和改进。

 ·  · 
硬件与部署 推理速度优化

Hugging Face 优化了 Segment Anything 2 (SAM 2),使其能够在设备上(Mac/iPhone)运行,推理时间在亚秒级!

讨论围绕 Hugging Face 优化的 Segment Anything 2 (SAM 2) 模型在 Mac/iPhone 设备上的亚秒级推理运行展开,涉及技术优化、开源应用、未来技术展望等多个方面。

 ·  · 
硬件与部署 推理速度优化

推理速度基准测试 - Tabby API 中的张量并行和推测性解码

讨论围绕Tabby API在多GPU设置下的推理速度基准测试展开,重点关注张量并行和推测解码的效果,发现操作系统、NVLink、VRAM使用等因素对性能有显著影响。

 ·  · 
硬件与部署 推理速度优化

在runpod.io上不同GPU的Ollama LLM基准测试

讨论围绕在不同GPU上运行Ollama LLM的性能测试展开,涉及模型大小、量化版本、上下文和响应大小等因素,探讨了性能、成本和性价比。

 ·  · 
硬件与部署 推理速度优化

Z1 extreme (rog allyX 版本) 与 8700G 在 LLM 推理中的对比

讨论主要围绕Z1 Extreme与8700G在LLM推理性能上的对比,涉及内存带宽、CU数量、未来APU发展及Linux系统下的优化。

 ·  · 
硬件与部署 推理速度优化

廉价GPU之战 - Lllama 3.1 8B GGUF vs EXL2在P102-100、M40、P100、CMP 100-210、Titan V上的比较

讨论围绕不同GPU型号在运行Llama 3.1 8B GGUF和EXL2模型时的性能比较,涉及性价比、功耗、物理尺寸等多方面因素,同时提供了新手入门指导和硬件选择的建议。

 ·  · 
硬件与部署 推理速度优化

本地1M上下文推理速度达15个令牌/秒,接近100%的“大海捞针”成功率:InternLM2.5-1M在KTransformers上的应用,仅需24GB VRAM和130GB DRAM。支持Windows/Pip/多GPU及更多功能。

讨论围绕KTransformers项目的最新进展,特别是本地1M上下文推理的实现,涉及技术改进、内存优化、多GPU支持等,同时也有关于模型安全和集成问题的讨论。

 ·  · 
硬件与部署 推理速度优化

ExllamaV2,现在支持张量并行!

ExllamaV2的最新更新通过Tensor Parallelism和批处理技术,显著提升了多GPU并行计算的性能,受到用户的高度赞赏和感谢。

 ·  · 
硬件与部署 推理速度优化

测试CPU和内存对仅CPU系统推理速度的影响

讨论围绕CPU和内存对推理速度的影响进行,涉及内存通道配置、性能测试方法和实际影响因素。

 ·  · 
硬件与部署 推理速度优化

Cerebras推出全球最快的AI推理引擎

Reddit用户对Cerebras推出的世界最快AI推理系统进行了热烈讨论,关注其性能、定价、准确性及应用场景,同时对其未来发展和市场影响表示期待。

 ·  ·