内存需求 | LLM Info

内存不足时尝试在Linux上运行DeepSeek V3 Quant的解决办法

[原帖分享在Linux系统下内存不足时运行DeepSeek V3 Quant的测试，评论者们围绕模型压缩、内存优化、交换机制等方面展开讨论，总体氛围较为平和且富有建设性。]

[讨论在单GPU上运行70B模型的可能性，涉及多种硬件条件、内存使用方式、量化模型等对运行的影响，整体氛围专注于技术探讨]

[围绕在DDR3内存服务器上安装1TB内存运行DeepSeek V3是否值得展开讨论，涉及硬件性能、成本、隐私等多方面观点，氛围理性且专业]

[原帖讲述Llama - 3.2 - 3B - Instruct - abliterated模型VRAM使用异常，评论给出多种观点如与上下文大小有关、可能是未释放资源、模型在做特殊尝试等及相应解决建议，整体氛围积极探讨问题]

[Ollama合并K/V缓存量化支持引发讨论，大家积极感激开发者的努力，也进行了技术层面探讨如量化影响、硬件关联，还涉及LLMs优化与未来发展的相关讨论]

[原帖探讨Qwen2.5 - Coder - 32B - Instruct的GPU内存使用计算，评论围绕降低硬件成本的方法、模型运行的策略、对ChatGPT计算结果的质疑等展开，总体氛围较平和且具有一定的技术探讨性]

[原帖作者询问M4 128设备上可尝试的有趣事情，评论围绕模型运行、速度、推荐等展开，氛围积极且充满技术交流]

[原帖询问1TB内存能否运行DeepSeek V2.5 FP8最大上下文长度，评论围绕模型运行所需的硬件配置（如内存、显存、CPU等）、技术问题（如构建失败、运行速度慢等）展开讨论，整体氛围比较技术向。]

[原帖讲述成功运行Llama 3.1 405B后，评论围绕运行效率、硬件需求、相关概念混淆等展开讨论，氛围较为技术化且存在不同观点的交流]

[原帖主询问将迷你电脑的32GB内存升级到96GB对运行llama3.1 70b的速度和性能是否有显著差异，评论主要围绕硬件配置、不同内存下模型运行情况、性能表现等展开，整体氛围比较专业务实]