原贴链接

嘿，r/LocalLLaMA的朋友们！我们很高兴地宣布发布我们的最新模型：Reverb - 7b！Ozone AI团队一直在努力，我们相信这个模型在7B性能方面是一个重大的进步。这个模型是基于从Claude 3.5 Sonnet和GPT - 4o提取的超过2亿个标记的数据进行训练的，并且是对Qwen 2.5 7b的微调。根据我们的基准测试，Reverb - 7b展示出了令人印象深刻的结果，特别是在MMLU Pro上。我们看到其性能似乎超过了Open LLM排行榜上的其他7B模型，特别是在具有挑战性的MMLU Pro数据集上（查看：[https://huggingface.co/spaces/open - llm - leaderboard/open_llm_leaderboard](https://huggingface.co/spaces/open - llm - leaderboard/open_llm_leaderboard)）。我们的MMLU Pro结果：生物学：0.6904；商业：0.3143；化学：0.2314；计算机科学：0.4000；经济学：0.5758；工程学：0.3148；健康：0.5183；历史：0.4934；法律：0.3315；数学：0.2983；其他：0.4372；哲学：0.4409；物理学：0.2910；心理学：0.5990。平均准确率（所有MMLU Pro学科）：0.4006。（更多的基准测试即将推出！）模型卡片与下载：[https://huggingface.co/ozone - ai/Reverb - 7b](https://huggingface.co/ozone - ai/Reverb - 7b)。这只是我们发布的第三个模型，我们致力于突破开源LLMs的界限。我们目前正在开发14B和2B的模型，所以请持续关注即将发布的这些模型！我们渴望听到你们的反馈！下载Reverb，试用一下，然后告诉我们你们的想法。感谢你们的支持，我们很期待看到你们使用Reverb - 7b做出的成果！

讨论总结

Ozone AI发布Reverb - 7b模型，引发了众多讨论。大家对模型各方面充满好奇，有人询问其与其他模型的区别、在不同语言上的表现、训练数据来源等，也有对模型在创意写作方面能力的质疑，还有人愿意提供资源支持其开发更大参数模型，以及对模型技术细节分享的要求等。

主要观点

👍 新模型是Qwen 2.5 7b的微调版本，在创意写作方面表现更好
- 支持理由：发布者称从基准测试看更智能，有使用者经验表明
- 反对声音：有观点认为基于Qwen开发的模型创意写作可能糟糕
🔥 对模型训练数据来源表示怀疑
- 正方观点：怀疑200M tokens是否来自MMLU Pro的Sonnet和4o的答案
- 反方观点：解释训练数据不是来自任何基准测试
💡 模型发布时应分享技术细节
- 解释：分享技术细节比单纯发布模型更有用，很多模型缺乏全面技术文档
💡 低量化水平下模型安全防护栏效果可能不佳
- 解释：例如低于4位时效果差，有测试中模型索要个人信息的情况
💡 很多人对新模型与其他模型的区别感到好奇
- 解释：如与llama 3.1 8B或qwen 2.5 7B的区别等

金句与有趣评论

“😂 mrdadermacher released the gguf 11 minutes ago wow [https://huggingface.co/mradermacher/Reverb - 7b - GGUF](https://huggingface.co/mradermacher/Reverb - 7b - GGUF)”
- 亮点：及时告知相关模型发布的补充情况
“🤔 Better at creative writing is interesting, generally more fine - tuned and trained on artificial data models tend to be worse, more generic, predictable and cliche”
- 亮点：对新模型创意写作能力好提出不同观点及理由
“👀 Our training sources are messages/chat logs from Claude and OpenAI, it’s about a 50/50 split of synthetic and real data.”
- 亮点：透露模型训练来源
“😎 AnduriII：The base qwen2.5 is amazing, one of the best 7b i have tested”
- 亮点：对基础模型Qwen2.5表示认可
“🤨 High MMLU Pro at low size => bad model, STEM oriented, boring prose, lack of word knowledge outside mmlu pro questionary.”
- 亮点：根据模型表现判断其风格和可能存在的问题

情感分析

总体情感倾向积极正面，大部分人对新模型的发布表示期待、认可或好奇。主要分歧点在于模型在创意写作方面的能力，原因是对模型基础的不同看法以及对创意写作与模型训练关系的不同理解。

趋势与预测

新兴话题：新模型在更多特定任务（如指令遵循、视频摘要）上的表现可能会引发后续讨论。
潜在影响：如果该模型在后续被证明在多种任务上表现优秀，可能会对开源LLM领域产生推动作用，吸引更多人关注和使用。

详细内容：

标题：Ozone AI 推出新模型 Reverb-7b 引发 Reddit 热议

近日，在 Reddit 的 LocalLLaMA 板块，Ozone AI 兴奋地宣布推出最新模型 Reverb-7b，引发了众多网友的关注和讨论。此帖获得了较高的关注度，评论数众多。

原帖主要介绍了 Reverb-7b 模型的训练数据来源、在 MMLU Pro 上的表现以及提供了模型卡和下载链接。同时提到这是他们的第三次模型发布，还有 14B 和 2B 模型正在开发中。

讨论的焦点主要集中在以下几个方面：有人认为 Reverb-7b 在创意写作方面表现出色，比如有用户分享道：“它是 Qwen 2.5 7b 的微调，主要区别在于这个模型更聪明（从基准测试中可见），并且根据我的经验，它在创意写作方面更出色。”但也有人持不同意见，例如：“作为基于 Qwen 的模型，我预感它在创意写作方面会非常糟糕，尤其是在 7B 规格下。高的 MMLU Pro 得分但规格小，意味着这是一个偏向 STEM 领域、行文枯燥、词汇知识局限于 MMLU Pro 问题范畴的糟糕模型。” 还有用户通过个人经历分享说：“在我要求写的小故事中，出现了会说话的狗，角色混乱等情况，根本没法用。而 Llama 3.1 8b、Falcon 7b 和 Ministral 虽然不完美，但至少条理清晰。”

关于模型的训练数据，有人提出质疑，认为其可能来自于某些基准测试的答案。但 Ozone AI 回应称训练数据并非来自任何基准测试。

在技术细节方面，Ozone AI 公布了该模型的微调方法为 LoRA，以及一系列的超参数设置。

有用户测试后认为 Reverb-7b 在视频总结方面表现出色，速度快，结果好，格式规范。

文章探讨的核心问题在于：Reverb-7b 模型在创意写作等方面的实际表现是否真如宣传的那样出色？其训练数据的来源和使用是否合规可信？

通过这次 Reddit 上的热烈讨论，我们可以看到大家对于 Ozone AI 新模型的期待与质疑，这也促使 Ozone AI 进一步完善和优化模型，为用户提供更好的服务。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#