原贴链接

Hermes 3这个大语言模型令人印象深刻!我正在iPhone上使用Hermes - 3 - Llama - 3.2 - 3B.Q6_K.gguf来体验它:

能够准确遵循指令 很擅长讲故事 在生成结构化输出(例如JSON)方面做得非常好 - 完全没有使用JSON引导。

Q5 - K - M那个(版本)不能像Q6一样仅通过提示来生成JSON。

想知道到目前为止你们使用这个模型有什么体验吗?

https://reddit.com/link/1hcg7fw/video/mvs3ew46id6e1/player

image
https://preview.redd.it/aswjd8icid6e1.png?width=1179&format=png&auto=webp&s=049b147011063425a1037e727498307e1b7bf76e

讨论总结

原帖分享了Hermes 3 3B在iPhone上使用时在指令遵循、讲故事、生成结构化输出方面的良好表现,并询问大家的使用体验。评论涉及多个方面,包括将Hermes 3 LLM与原版llama3.2比较、使用者涉足本地LLM领域情况、Hermes 3模型在回答助手类问题和编码能力方面的表现、在多语言任务方面的表现、在Xcode项目中的使用、iPhone上使用的应用等,整体讨论氛围理性,大家各抒己见。

主要观点

  1. 👍 Hermes 3 LLM在某些方面表现不错(如原帖提到的指令遵循、讲故事等)
    • 支持理由:原帖作者亲测并列出了在iPhone上使用时的优点。
    • 反对声音:有评论者称在回答助手类问题表现一般、编码能力弱等。
  2. 🔥 Hermes 3 LLM与原版llama3.2的比较
    • 正方观点:有人好奇Hermes 3 LLM是否比原版有明显优势。
    • 反方观点:没有明确的反对观点,只是有评论者指出现在llama基础模型追上来后Hermes优势不明显。
  3. 💡 Hermes 3 3B在多语言任务方面表现差
    • 支持理由:有评论者指出在多语言任务方面表现糟糕,像其他小语言模型一样。
    • 反对声音:有评论者认为模型小不是理由,还有人指出Llama多语言能力本身就差不是Hermes重点改进方向等。

金句与有趣评论

  1. “😂 Is it noticeably better than the original llama3.2?”
    • 亮点:简洁地提出了很多人关心的Hermes 3 LLM与原版对比的问题。
  2. “🤔 我已经对21个模型编译了结果,并且我很享受这个过程,因为我看到了从连贯准确的信息到被包装成事实的荒谬谎言等各种情况。”
    • 亮点:描述了在模型测试中的丰富体验。
  3. “👀 Answers to my assistant type questions are average at best.”
    • 亮点:直接表达对Hermes 3模型在回答助手类问题上的看法。

情感分析

总体情感倾向比较中立,既有对Hermes 3 LLM的肯定(原帖作者及一些对其功能认可的人),也有负面评价(如认为在多语言任务表现差、在回答助手类问题表现一般等)。主要分歧点在于Hermes 3 LLM的性能表现方面,包括与原版对比、多语言任务、编码能力等,可能的原因是不同用户的使用场景、需求和测试标准不同。

趋势与预测

  • 新兴话题:对Nous的分布式运行以及会产生何种模型的期待可能会引发后续讨论。
  • 潜在影响:如果Hermes 3 LLM在性能改进方面能够根据用户反馈进行优化,可能会对自然语言处理领域的小模型发展产生积极影响。

详细内容:

标题:《关于 Hermes 3 3B 的热门讨论》

近日,Reddit 上一则关于“ Hermes 3 3B 已推出且令人喜欢”的帖子引发了众多关注。该帖子提到 Hermes 3 LLM 令人印象深刻,并分享了在 iPhone 上使用的体验,如准确遵循指令、擅长讲故事、能很好地生成结构化输出(如 JSON),还指出 Q5-K-M 版本不像 Q6 那样仅通过提示就能生成 JSON 。此贴获得了大量点赞和众多评论。

讨论焦点主要集中在 Hermes 3 3B 与其他模型的比较,以及其在不同任务中的表现。有人提出疑问:“它是否比原始的 llama3.2 明显更好?”也有人表示完全忽略其生成 JSON 的指令。有人分享了自己进行的 21 个模型的测试结果,称能看到从准确信息到离谱谎言等各种回答。还有人认为加载了不同尺寸的该模型后有些失望,其在助理类问题回答和编码能力上表现一般。

有人指出 Hermes 3 3B 在多语言任务中表现糟糕,就像其他小型 LLM 一样。但也有人认为小型不是不能多语言的借口,比如 Gemma 2 2B 就做得不错。有人称 Llama 一直以来在多语言方面处于底层,这并非新鲜事,也不是 Hermes 调整的重点。还有人表示大多数微调模型是在仅英语的数据集上进一步训练的,这进一步降低了它们的多语言能力。

同时,讨论中也出现了一些有趣或引发思考的观点,比如“yah, strangely my mac is really bad at playing xbox games :)”“Have you tried shouting at it in español?”等。

核心问题和争议点在于 Hermes 3 3B 与其他模型相比的优势和不足,以及其在多语言任务和特定应用中的表现究竟如何。