Nvidia刚刚发布了其多模态模型NVLM 72B。

本次讨论围绕Nvidia发布的NVLM 72B多模态模型展开，主要涉及以下几个方面：

👍 Nvidia商业策略
- 支持理由：通过高利润芯片销售和模型训练形成闭环，商业模式高效。
- 反对声音：有人质疑利润率计算方式，认为超过100%的利润率不合理。
🔥 NVLM 72B技术优势
- 正方观点：多模态训练后文本性能超过基础LLM模型，技术突破显著。
- 反方观点：其他模型如Llama 3.2未出现类似性能提升，可能与基础模型选择有关。
💡 项目维护问题
- Chelono认为llama.cpp急需新贡献者，否则难以维持。
- ggerganov提出多模态支持是吸引新人才的好机会。
🛠 模型格式选择
- 大公司倾向使用HF格式，因其兼容性和普及度高。
- GGUF格式在某些方面不够灵活，如不支持多模态输入。
🤔 硬件需求
- 询问NVLM 72B是否需要40GB显存，关注模型实际应用条件。

“😂 "You gotta admire Nvidia’s approach here. Gigacaps are paying billions at 90% margins for chips from Nvidia to train models for Nvidia to finetune. Incredible." —— qeternity”
- 亮点：幽默地揭示了Nvidia的高利润商业模式。
“🤔 "His calc is profit / price. Your calc is price / cost. Anybody know what’s the usual way to calc margin?" —— Yes_but_I_think”
- 亮点：引发对利润率计算方法的深入讨论。
“👀 "If no new contributors show up for this llama.cpp won’t be maintainable anymore." —— Chelono”
- 亮点：直指项目维护的紧迫性问题。
“😲 "Imagine Nvidia poaches all ex-OpenAI people and launch their NGPT setting aside 50% of HW production to it lol" —— trialgreenseven”
- 亮点：幽默讽刺地设想Nvidia的未来战略。
“🤨 "Incredible! How can one run this model?" —— ApprehensiveDuck2382”
- 亮点：表达了对新技术的好奇心。

总体情感倾向积极，用户对Nvidia的新模型表现出浓厚的兴趣和惊叹。主要分歧点在于利润率计算方法、项目维护问题及模型格式选择。讨论中既有对技术细节的深入探讨，也有对商业策略的赞赏和质疑。

详细内容：

标题：Nvidia 推出 Multimodal 模型 NVLM 72B 引发 Reddit 热议

Nvidia 刚推出了其 Multimodal 模型 NVLM 72B，这一消息在 Reddit 上引发了广泛关注。该帖子获得了众多点赞和大量评论。讨论主要围绕模型的架构、性能、利润计算方式、与其他模型的比较以及模型的应用等方面展开。

在讨论中，有人指出从配置文件看，该模型构建在 Qwen 2 72B 之上。还有人称赞 Nvidia 的做法，认为其芯片利润极高。关于利润计算方式，各方观点不一。有人提到通常使用净利润除以收入来计算净利润率，也有人对不同的计算方式进行了探讨。

有用户认为 NVLM 1.0 在多模态训练后，文本性能优于其 LLM 骨干。有人好奇模型的潜在空间如何识别不同模态中的常见时间维度，还有人认为模型需要在真实世界的数据中进行训练。

对于模型格式，有人认为大公司选择 HF 而非 GGUF 是因为 HF 基于 pytorch，使用更广泛，且更容易转换。但也有人认为 pytorch 并非完美无缺。

有人好奇如何运行该模型，还有人询问运行该模型是否需要 40GB 显存。

这场讨论充分展示了大家对 Nvidia 新模型的浓厚兴趣和深入思考，也反映出了在技术领域不断探索和争论的活跃氛围。但对于模型的一些关键问题，如最佳的训练方式和实际应用效果，目前尚未达成明确的共识。

详细内容：#