原贴链接

我不知道是否其他人也有这种感觉，但目前看来，多模态大语言模型是我们构建‘世界模型’（当然，我是宽泛地使用这个术语）的最佳选择，而开源中的多模态大语言模型目前很糟糕。一个真正的多模态大语言模型几乎可以取代我们认为的所有人工智能模型：文本到图像（图像生成）、图像到文本（图像字幕、边界框生成、目标检测）、文本到文本（标准大语言模型）、音频到文本（转录）、文本到音频（文本到语音、音乐生成）、音频到音频（语音助手）、图像到图像（图像编辑、视频时序生成、图像分割、图像放大），更不用说各种各样的组合了：图像和音频到图像和音频（电影续拍）、音频到图像（能生成图像的语音助手）、图像到音频（图像的语音描述、电影的声音生成，也许还有手语翻译）等。我们一次又一次地看到，在人工智能中，训练数据中的领域越多，模型就越好。如今我们最好的翻译模型是大语言模型，因为它们更广泛地理解语言，我们可以给它一些特定的要求，如‘使这个表述更正式’‘使这个听起来更欢快’，这是其他翻译软件做不到的，而且它们会发展出一些我们不需要专门训练的技能，几个月前Gemini发布时我们就看到了它的图像编辑能力有多好，而据我所知，除了多模态大语言模型之外，目前没有其他模型能做图像编辑（更不用说擅长了）。谁知道它还能做什么呢：通过生成图像进行视觉推理，这样它就不会在奇怪的空间基准测试中失败等。然而，没有一家公司能够甚至试图复制OpenAI 4o或者Gemini的成功，每次有人发布一个新的‘全能’模型时，它总是缺少一些东西：模态、统一的架构，以便所有模态都嵌入到同一个潜在空间中，这样上述所有功能才有可能实现，这很令人恼火。例如QWEN不支持4o语音能做的任何事情：说得更快、更慢、（理论上的）语音模仿、唱歌、背景噪音生成，更不用说它在任何文本基准测试中表现也不佳。还有非常令人失望的Sesame模型。在这一点上，我在想，闭源公司是否真的有一道护城河，而这就是具体所在。当然，我不反对专门的模型和由多个模型组成的更具可解释性的管道，显然它在Waymo自动驾驶、代码Copilot中运行得非常好，应该在那里使用，但我现在想知道我们是否还能得到一个好的全模态模型。抱歉我发了这么多牢骚，我只是一次又一次地兴奋然后失望，到现在可能已经有20次了，自从最初的4o发布以来，我已经等了好几年，希望能有一个达到我四分之一期望的好模型。

讨论总结

原帖作者认为开源多模态大语言模型目前状况不佳，尽管多模态大语言模型若完善可替代多种AI模型，但目前没有公司能复制OpenAI或Gemini的成功，新发布的“全能”模型总有欠缺之处，猜测是因为各公司害怕。评论者们从不同角度进行了讨论，包括从llama.cpp环境下多模态模型的有效使用、开源模型分类、多模态发展的预期、乐观态度回应、纠正原帖认知、开源在新特性和效率方面的情况、开源模型的阻碍因素以及对多模态重要性的质疑等方面。

主要观点

👍 开源多模态大语言模型目前状况不佳。
- 支持理由：原帖作者列举了很多新发布模型存在的问题，如QWEN不支持4o voice能做的一些事。
- 反对声音：无。
🔥 多模态模型若完善可替代多种AI模型。
- 正方观点：多模态涵盖多种功能转换，如文本到图像、图像到文本等多种组合，更多的训练数据域能让模型更好。
- 反方观点：有评论者不认为多模态重要。
💡 没有公司能复制OpenAI或Gemini的成功。
- 支持理由：每次新发布的“全能”模型都有欠缺之处。
- 反对声音：无。
👍 开源在新特性方面通常落后，在效率方面领先。
- 支持理由：Gemini和GPT的多模态功能推出较新，而开源在这方面滞后，但有效率优势。
- 反对声音：无。
👎 不认为多模态重要。
- 支持理由：无（只是表达主观观点）。
- 反对声音：原帖阐述了多模态大语言模型理论上可替代多种AI模型。

金句与有趣评论

“😂 They’re all just afraid.”
- 亮点：简单直接地表达了对开源多模态进展缓慢原因的猜测。
“🤔 Openai was sitting on the omni image generation for a year until Google did it.”
- 亮点：通过OpenAI的例子说明闭源公司在技术发布上的策略。
“👀 Just wait for closed source to pave the way on what’s acceptable in society, and only then will others make similar options.”
- 亮点：阐述了闭源与开源在社会接受度方面的关系。
“💡 如果它是一个有能力的函数调用模型，它将是一个开创性的开源智能助手。”
- 亮点：对Qwen模型潜力的积极展望。
“😂 Never say never. Ever :)”
- 亮点：以诙谐幽默的方式表达乐观态度。

情感分析

总体情感倾向为中性偏负面。原帖作者对开源多模态模型现状失望，部分评论者也指出开源多模态模型存在的问题，如进展缓慢、缺乏用户友好型运行软件、硬件缺乏等。主要分歧点在于对多模态重要性的看法，原帖作者及部分人认为多模态若完善可替代多种AI模型，而有评论者不认同其重要性。可能的原因是大家站在不同的角度看待多模态，例如从理论替代能力、实际应用需求、资源限制等方面。

趋势与预测

新兴话题：开源模型的硬件缺乏问题以及大规模采用开源模型是否能解决硬件问题可能会引发后续讨论。
潜在影响：如果开源模型在硬件问题上得到改善，可能会加速多模态模型的发展，进而对AI领域产生推动作用，也可能影响到相关产业如软件开发、人工智能应用等。

详细内容：

标题：开源领域多模态模型的困境与期待

在 Reddit 上，一篇题为“Multi modality is currently terrible in open source”的帖子引起了广泛关注。该帖子获得了众多点赞和大量评论，主要探讨了开源领域多模态大语言模型的现状与问题。

原帖作者认为，多模态大语言模型是构建“世界模型”的最佳选择，但其在开源领域的表现目前很糟糕。真正的多模态大语言模型可以替代几乎所有被视为 AI 的模型，如文本到图像、图像到文本等多种组合形式。然而，目前没有公司能够成功复制 OpenAI 或 Gemini 的成功，每次新发布的“全能”模型都存在缺失，比如模态、统一架构等方面的不足，这令人感到十分恼火。

讨论焦点主要集中在以下几个方面：有人认为，一些公司因害怕而不敢尝试，等着闭源公司为社会接受的模式铺平道路。例如有人说：“Openai 一直坐拥全图像生成技术一年，直到谷歌出手。就等着闭源公司来开拓，然后其他公司才会跟进类似的选择。” 也有人对新模型持怀疑态度，比如有人猜测“5 年后这仍会令人失望，再过 5 年会变得惊人。” 还有人认为开源在新功能上通常滞后但在效率上有优势，比如“Gemini 是第一个出现的，GPT 多模态昨天才出来！开源通常在新功能上落后，但在效率方面领先。”

有人指出开源模型面临的瓶颈，如缺乏用户友好的运行软件，以及硬件获取的困难。有人表示：“最大的障碍现在是硬件的获取。即使是主要的大学也无法获得足够的 GPU 来跟上研究的步伐。”

同时，也有人认为硬件问题虽大，但大规模采用可以解决这一问题。

在这场讨论中，虽然观点各异，但对于开源多模态模型的发展都充满了关注和期待。究竟开源领域能否在未来突破困境，打造出优秀的多模态模型，让我们拭目以待。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#