原贴链接

介绍DeepHermes - 3预览版,这是一种新的大型语言模型(LLM),它将推理和直观的语言模型能力相结合。HF模型:https://huggingface.co/NousResearch/DeepHermes - 3 - Llama - 3 - 8B - Preview,GGUF量化:https://huggingface.co/NousResearch/DeepHermes - 3 - Llama - 3 - 8B - Preview - GGUF。DeepHermes 3是由Hermes 3数据混合构建的,带有新的推理数据,创建了一个能够切换长思维链(以更多测试时间计算为代价来提高准确性)的模型。这是我们在推理模型上的第一项工作,希望我们这种用户可控、可切换推理模式的独特方法能推进我们的使命,即让DeepHermes的使用者能根据需求更好地操控它。早期的基准测试表明,在启用(推理模式)时,数学推理能力有极大提高,在GPQA(谷歌证明问答)基准测试中也有适度提高。由于这是一个实验性预览版,还有很多工作要做,以发现推理泛化的完整范围、特性或问题等。我们希望社区能帮助我们探索该模型以及在各种任务和用例中的新推理范式。我们期待听到您关于我们未来如何改进深度推理模型的反馈。(仅供参考,我不是来自Hermes,只是复制了这个消息。)

讨论总结

这是一个关于Nous DeepHermes - 3 8B新语言模型的讨论。评论者从不同角度对这个模型进行了探讨,包括模型开发中对其他模型的使用(如为何不使用Qwen模型)、模型参数(15B左右可能更有趣)、推理能力(如在不同测试场景下的推理表现)、性能比较(与Deepseek Distill of Llama 3.1 8b比较)等。既有对模型的正面评价,也有指出模型存在的问题,同时还夹杂着一些调侃和因名称产生的误读等情况。

主要观点

  1. 👍 对DeepHermes - 3 8B不使用Qwen模型表示疑惑
    • 支持理由:评论者发现开发者从不使用Qwen模型,而这引发了好奇。
    • 反对声音:无。
  2. 🔥 DeepHermes - 3 8B模型在正确使用系统提示时很智能且表现优于Deepseek Distill of Llama 3.1 8b
    • 正方观点:ForsookComparison通过测试发现模型在使用正确系统提示时表现良好。
    • 反方观点:No - Mountain3817认为该模型表现比Deepseek Distill更差。
  3. 💡 认为15B左右参数的模型会比较有趣
    • 解释:uti24觉得这个参数范围的模型可能会有更好的表现。
  4. 💡 希望有基于mistral的模型
    • 解释:No_Afternoon_4260表达了这样的期望。
  5. 💡 DeepHermes - 3模型最初测试有希望但思维进程开启有隐患
    • 解释:EmergencyLetter135经过测试发现了这个问题。

金句与有趣评论

  1. “😂 为什么他们从不使用Qwen模型呢?我发现任何低于14B的模型都难以遵循自己的推理过程。”
    • 亮点:提出了对模型开发的疑惑,并且指出小参数模型推理的困难。
  2. “🤔 It’s passing my initial vibe check.”
    • 亮点:简单直接地表明模型通过了初步检验。
  3. “👀 This model is smart. This model is really smart actually when you use the correct system prompt (testing on Q6).”
    • 亮点:强调了系统提示对模型表现的重要性。
  4. “😂 Why did I read that as Nous DeepHerpes - 3 8B”
    • 亮点:以调侃的方式指出模型名称可能存在易误读性。
  5. “👍 Just tried it, pretty lit for an 8B.”
    • 亮点:对8B模型给出了正面的试用体验评价。

情感分析

总体情感倾向比较多元。有积极的情感,如对模型的正面评价、对开源社区的喜爱和感谢;也有消极的情感,如对模型某些性能(如在RAG应用中的表现)的不满。主要分歧点在于模型的性能表现,不同的测试者在不同的测试场景下得到了不同的结果,可能是由于测试条件、使用方法(如是否使用正确的系统提示)等因素导致的。

趋势与预测

  • 新兴话题:模型在不同应用场景(如RAG应用)中的优化方向。
  • 潜在影响:如果模型能够解决目前存在的问题(如思维进程开启不可靠),可能会对自然语言处理领域产生积极影响,推动相关技术的发展。

详细内容:

标题:关于 Nous DeepHermes-3 8B 的热门讨论

近日,Reddit 上一则关于 Nous DeepHermes-3 8B 的帖子引发了众多网友的热烈讨论。该帖子介绍了这款新的语言模型,它融合了推理和直观语言模型的能力,相关链接为:https://huggingface.co/NousResearch/DeepHermes-3-Llama-3-8B-Preview 以及 https://huggingface.co/NousResearch/DeepHermes-3-Llama-3-8B-Preview-GGUF 。此帖获得了较高的关注度,众多网友纷纷发表了自己的看法。

讨论的焦点主要集中在以下几个方面: 有人质疑为什么开发团队从不与 Qwen 模型合作,认为低于 14B 的模型在遵循自身推理过程方面存在困难。但也有人表示这款模型相当不错,不应将其与其他模型混淆,并且认为 15B 左右参数的模型可能会更有趣。还有人希望团队能开发类似 Mistral 的模型,有人则指出 Nous 并非像想象中那样在法国,而是在美国注册且员工遍布全球。

关于模型的性能,有用户表示经过初步测试,对于一个 8B 模型,在特定条件下能给出令人惊讶的全面且合理的回应,性能表现令人印象深刻。也有人指出使用正确的系统提示时,该模型表现得非常聪明,且比 Deepseek Distill of Llama 3.1 8b 性能更优,但也有用户持相反观点,认为其表现不如 Deepseek Distill,无法正确回答问题。为了开启推理功能,需要使用特定的系统提示,如“您是一个深度思考的 AI……”。有人尝试了更现实的场景,认为看到模型推理很有趣,也有人认为模型的回答虽然连贯但有些明显,仍在寻找更好的提示。还有用户提到,有时在提示中简单添加“思考一下”可能会有帮助,或者在提示后添加标签。

在讨论中,有人认为思考标记不一定要“果断”,主要优势在于能为模型自身提供更多上下文以形成逻辑关系。但也有人表示在测试中出现了幻觉问题,还有人指出该模型在某些情况下会拒绝请求,在 RAG 应用中的表现不如 Deepseek Llama 8B 模型可靠。

总的来说,关于 Nous DeepHermes-3 8B 模型,大家的看法不一,但都为进一步探索和改进该模型提供了有价值的参考和方向。