输入和输出均为文本、图像、视频和音频。编辑：我知道我们可以通过连接多种文本、图像、音频、视频模式来实现这种真正的多模态效果，但在这种情况下，它们都将有自己的潜在空间。除非它们共享共同的潜在空间，否则真正的沉浸式多模态体验是不可能的。

讨论总结

原帖探讨是否存在真正的多模态AI开放模型，要求能同时以文本、图像、视频和音频作为输入输出。评论者们根据自己的知识和经验，列举了Qwen2 VL、InternVL、Pixtral 12B等多个模型，指出目前还没有真正满足条件的多模态AI开放模型，有些模型在输入输出类型上存在局限，如音频输入输出的模型尚未达到生产可用程度。同时也讨论了一些模型如GPT - 4o、ChatGPT、Emu3等在多模态方面的功能，整个讨论氛围理性客观。

主要观点

👍 目前没有真正的多模态AI开放模型。
- 支持理由：评论者们以多个现有的模型为例，如Qwen2 VL等，指出它们在输入输出类型上存在局限，没有完全满足多模态的要求。
- 反对声音：无
🔥 ChatGPT不生成图像，不是真正的多模态模型。
- 正方观点：ChatGPT将图像生成任务交给Dalle，是为其他模型生成提示并调用工具来操作，不符合真正多模态的定义。
- 反方观点：无
💡 Emu3具备文本、图像、视频三种模态，但缺少音频模态。
- 解释：直接指出Emu3在多模态方面的能力和缺失的部分。
💡 目前闭源模型没有满足多模态要求的。
- 解释：以ChatGPT为例进行说明，其功能不符合真正多模态要求。
💡 开源模型可通过特定系统指令实现类似功能。
- 解释：部分开源模型可以利用系统指令实现与多模态相关的功能。

金句与有趣评论

“😂 No. So far all we have are image, video, and text input, and text output (Qwen2 VL, InternVL, Pixtral 12B, etc. but only Qwen2 VL can also take video and not just images to my knowledge)”
- 亮点：直接明确地指出目前一些模型的输入输出类型局限。
“🤔 我不认为有任何已推出的闭源模型符合你的标准——例如ChatGPT不生成图像，它只是将图像生成交给Dalle——这些模型不是多模态的，它们是为其他模型生成提示并通过工具调用使用它们的模型。”
- 亮点：通过ChatGPT的例子深入解释闭源模型不符合多模态要求的原因。
“👀 Emu3 has 3/4 of those — no audio.”
- 亮点：简洁地概括Emu3在多模态方面的情况。

情感分析

总体情感倾向是中性的，主要分歧点较少。大家都在围绕是否存在真正的多模态AI开放模型这一问题进行理性探讨，没有明显的情绪冲突。可能是因为这是一个比较专业的技术话题，大家更多地在分享知识和观点。

趋势与预测

新兴话题：对于Llama 3.2和aria在多模态方面的进一步探究。
潜在影响：如果真的出现满足要求的多模态AI开放模型，可能会对人工智能领域的发展产生巨大推动作用，在多媒体内容创作、智能交互等方面带来更多的可能性。

详细内容：

标题：目前是否有真正的多模态 AI 开放模型问世？

在 Reddit 上，有这样一个热门话题：“Is there any true multi modal AI open model launched so far? ” 此帖引发了广泛关注，吸引了众多用户参与讨论，评论数众多。

原帖主要探讨了能否有一个能够同时处理文本、图像、视频和音频作为输入和输出，并且共享共同潜在空间的真正多模态 AI 开放模型。帖子引发了多个主要讨论方向，包括当前已有的各类模型及其功能特点，以及对未来多模态模型发展的展望。

文章将要探讨的核心问题是：当前是否存在符合上述严格标准的多模态 AI 开放模型。

在讨论中，有人指出目前还没有这样的开放模型。比如，有人说目前我们有的是图像、视频、文本输入和文本输出的模型（Qwen2 VL、InternVL、Pixtral 12B 等，但据其所知只有 Qwen2 VL 还能处理视频而非仅仅图像），或者文本和音频输入和输出的模型（Ichigo、Qwen2 Audio 也许），并且音频输入/输出的模型还未达到可实际应用的程度。

有人提出对 Bark 用于音频输出的看法。还有人分享自己尝试过 Bark，认为它相当不错，同时提到几天前新发布的 F5-TTS 模型在英语方面的质量堪比 ElevenLabs，还能进行语音克隆。

有人认为 Xtts 也是一个不错的选择。也有人提到 Kyutai Labs 的 Moshi 是在 Huggingface 上发布的语音到语音模型，而 Ichigo 和 Qwen2 Audio 只能输入音频而不能生成音频。

有人说 baai emu3 可以原生处理图像输入/输出，但生成速度较慢。还有人提到 Phi - 3.5 - vision 可以接受视频片段作为输入。

有人认为目前据自己所知，还没有开放权重模型能够处理视频中的音频，如果视频有字幕，或许情况会好一些。也有人表示不认为有任何闭源模型能满足这些标准，例如 ChatGPT 不生成图像，只是将图像生成任务交给 Dalle，这些模型不是多模态的，而是为其他模型生成提示并通过工具调用使用它们。还有人提到 GPT - 4o 据称原生具备图像输出能力，但未发布，可能是出于“安全”考虑。有人说 Emu3 具备其中的 3/4 功能，没有音频。有人感叹似乎永远不会有音乐相关的模型。有人称 Emu-3 可以输出图像和视频。有人提到听说过 Llama 3.2 和 aria，但不确定它们在音频方面的表现，其他 3 种功能是可以的。

讨论中的共识是目前真正符合严格标准的多模态 AI 开放模型尚未出现。特别有见地的观点是对于各种现有模型优缺点的详细分析，以及对未来模型发展的谨慎期待，这些观点丰富了讨论，让大家对多模态模型的现状和未来有了更深入的思考。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#