原贴链接

大家好!简而言之:这是一个将叙事能力与详细场景描述相结合的融合模型,在保持智能和可用性的同时减少正向偏差。目前在UGI基准测试中排名最高的70B模型!这个模型是怎么来的呢?我采用了具有出色叙事能力的EVA - LLAMA 3.33,将其与EURYALE v2.3详细的场景描述相混合。添加Anubis v1来增强散文细节,并加入一些Negative_LLAMA以防止它过于积极乐观。所有这些都是基于Nemotron - lorablated基础之上的。在融合过程中减去lorablated基础会产生一种“权重扭曲”效应。如果你玩过我之前的Astoria模型,你就会认识这种方法 - 它在模型响应方式上创造了一些非常有趣的平衡。像往常一样,我的目标是让模型保持智能,具备叙事和角色扮演的能力。基准测试结果:UGI分数:56.75(目前在70B模型中排名第一,与123b模型相当或更好);Open LLM平均分数:43.92%(虽然对于基于这些问题进行训练的人来说不是那么有用,但仍然有价值);各项分数都很稳定,特别是在IFEval(69.63%)和BBH(56.60%)方面。已经有一些量化版本可用。推荐模板:由@.konnect提供的LLam@ception。查看地址:https://huggingface.co/Steelskull/L3.3 - MS - Nevoria - 70B。很想听听你对它的想法和使用经验!你的反馈有助于下一个版本做得更好。祝愉快提示!

讨论总结

该讨论围绕 -Nevoria- LLama 3.3 70b模型展开。大家从不同角度对这个模型进行了探讨,包括模型性能在智能基准方面的表现、在指令遵循技能上的得失、在故事讲述能力上的优劣,还有模型使用中遇到的诸如“slop”情况、输出垃圾信息等问题,也涉及到模型在不同平台的可用性等话题,整体氛围是理性探讨,大家根据自己的测试和使用经验发表观点。

主要观点

  1. 👍 [模型智能基准未下降,避免了多数混合模型性能下降的问题]
    • 支持理由:[评论者测试发现该模型在智能基准测试中没有显示出性能下降迹象,与多数混合模型不同]
    • 反对声音:[无]
  2. 🔥 [按照推荐使用Llamaception模板,模型在RP和智能性方面表现不佳]
    • 正方观点:[评论者按照推荐使用模板测试,得到的答案在RP和智能性方面平淡无奇]
    • 反方观点:[无]
  3. 💡 [UGI分数是社区内角色扮演使用方面接近官方的基准]
    • [评论者解释UGI分数在角色扮演方面的重要性,是社区接近官方的基准]
  4. 💡 [Negative Llama单独使用存在失去智能且低俗的问题]
    • [评论者在使用经验中发现Negative Llama单独使用时会失去很多智能并且变得低俗]
  5. 💡 [模型性能更多取决于个人喜好而非客观表现]
    • [评论者认为在评价该模型性能时,个人喜好占比较大]

金句与有趣评论

  1. “😂 How is the slop? I stopped using Llama 3 70B just because her eyes sparkled with mischief sending shivers down my spine every single time.”
    • 亮点:[用比较生动形象的表述形容之前使用Llama 3 70B时的感受,引起读者兴趣]
  2. “🤔 我很高兴智能基准测试没有显示出性能下降的迹象。大多数混合模型都会降低性能,但这个模型避免了这种情况,并且模型的智能仍然完好无损。”
    • 亮点:[明确指出该模型在智能基准方面与其他混合模型对比的优势]
  3. “👀 对于这个模型的实际写作,我认为它是一个可靠的故事讲述者,我也同意它与123B模型不相上下的说法。”
    • 亮点:[对模型在故事讲述方面给予肯定,并与123B模型作比较]
  4. “🤔 然而,我注意到这个模型非常‘冗长’。所以我认为IFEVAL分数的下降可能被夸大了。”
    • 亮点:[对模型的IFEVAL分数下降提出自己独特的看法]
  5. “😂 对于我来说,它感觉不是很好,我按照建议使用了Llamaception,但答案在RP和智能性方面平淡无奇,比好的70B模型差。”
    • 亮点:[直接表达使用模型后的负面感受]

情感分析

总体情感倾向为中性偏负面。主要分歧点在于模型的性能表现,如在RP和智能性方面。可能的原因是不同用户使用的模板、设置不同,以及对模型性能评判的标准不同,还有模型本身可能存在一些不稳定或者未优化好的地方。

趋势与预测

  • 新兴话题:[模型使用中遇到的如垃圾信息等新问题及解决方案可能引发后续讨论]
  • 潜在影响:[如果模型问题得不到解决可能影响其在相关领域的推广使用]

详细内容:

标题:关于 -Nevoria- LLama 3.3 70b 模型的热门讨论

在 Reddit 上,一个关于 -Nevoria- LLama 3.3 70b 模型的帖子引发了众多关注。该帖子详细介绍了此模型的合并过程、特点以及在各项基准测试中的成绩。帖子获得了大量点赞和众多评论。

原帖中提到,作者将 EVA-LLAMA 3.33 的讲故事能力、EURYALE v2.3 的详细场景描述、Anubis v1 增强的散文细节以及Negative_LLAMA 等进行了融合,以达到平衡和优化。此模型在 UGI 基准测试中排名颇高,同时还给出了相关量化版本和推荐模板,并希望听取大家的使用反馈。

讨论焦点与观点分析:

有人提出疑问,比如“[AlgorithmicKing] 什么是 UGI 分数和基准?”

在使用体验方面,观点各异。有人认为偶尔会出现“slop”,但并非常态。也有人觉得此模型的指令遵循技能有所下降,但认为其 IFEVAL 分数可能被高估。

有用户分享道:“[Few_Painter_5588] 刚进行了一个小测试。我很高兴智力基准测试没有显示出性能退化的迹象。大多数混合模型会降低性能,但这个模型避免了这一点,模型的智力仍然完好。然而,最初对 IFEVAL 分数感到担忧。报告的 IFEVAL 为 69.63%,这比 LLama 3.3 下降了近 20%。可以确认此合并在某些方面失去了一些指令遵循技能。不过,注意到模型的表述很‘冗长’。所以认为 IFEVAL 的影响可能被夸大了。实际写作方面,它是一个不错的故事讲述者,同意它能与 123B 模型相媲美的说法。即使在 IQ4_XS 上运行,也能得到一个非常扎实的故事讲述模型。但还是会时不时出现 L3.3 的‘slop’。”

也有用户表示使用体验不佳,如“[Mart-McUH] 对我来说感觉不太好,按照建议使用了 Llamaception,但回答平淡无奇且缺乏灵感,在角色扮演(RP)和智力方面不如优秀的 70B 模型。包括 Negative llama 在内的任何模型都无法很好地工作。Negative Llama 本身似乎失去了很多智力,并且变得相当低俗。所以在我看来,它对任何包含它的模型都有损害。Nevoria 在一定程度上有所恢复,因为 Negative Llama 只是一小部分,但仍然能感觉到。我使用了 IQ4_XS。”

还有人提到了模板和设置的问题,比如“[mentallyburnt] 有趣,你使用的是什么设置?是直接的 llamaception 吗?我看到有些人说温度 1 和 0.99 TFS(接近 0.015 最小 P),使用正常的干燥设置,效果非常好。我们仍在为这个模型找出基本设置。我一直在测试温度 1.1,最小 P 为 0.035 和干燥设置。”

对于此模型的可用性,有人问道:“[Feisty-Pineapple7879] 它在 openrouter 上可用吗?” 有人回复“[mentallyburnt] 遗憾的是不可用,但在 featherless 和 arli-ai 上可用。我正在努力将其添加到其他地方,因为到目前为止收到了很好的评价。”

总之,关于 -Nevoria- LLama 3.3 70b 模型的讨论丰富多样,既有对其性能的肯定,也有不同程度的质疑和不满意,而如何优化设置和提升使用体验是讨论中的重要话题。