原贴链接

现在是2025年1月，仍然很少有模型成功解决大型语言模型（LLM）的积极偏向问题。LLAMA 3.3在社区中的反响褒贬不一。它是一个很棒的助手，在遵循指令方面表现卓越（到目前为止其指令遵循评估分数IFEVAL最高，且优势明显）。问题在于，它非常可预测、枯燥，当然，和其他所有大型语言模型一样，存在积极偏向问题。Negative_LLAMA_70B不是一个专注于失调（unalignment）的模型（尽管它相当无审查限制），但这是我在保持LLAMA 3.3 70B基础模型卓越智能的同时解决积极偏向问题的尝试。基础模型3.3比我的微调模型更智能吗？我很确定是的，然而，Negative_LLAMA_70B仍然相当聪明。该模型没有因失调问题而过度调整，所以它不会直接给你提供病态或令人沮丧的内容，但如果你让它写一个故事或进行角色扮演（RP），你会注意到稍微阴暗的底色。在一个长途旅行的故事中，角色会感到腿受伤和疲惫；在角色扮演中，当你严重激怒一个角色时，它可能会回击你（不需要在角色卡中明确提示这种行为）。此外，没有使用toxic - dpo和其他病态失调数据集。我确实包含了一个私有数据集，这个数据集应该能在角色扮演和创意写作以及很多面向助手的任务中给予完全的自由度。总结：具有很强的角色扮演和创意写作能力；积极偏向性更低；是非常聪明的助手，拒绝率低；在遵循角色卡方面表现非常好；角色感觉更‘鲜活’，偶尔会主动发起事情（不需要提示，但符合其角色设定）；具有很强的理解和扮演不常见身心特征的能力。详情见https://huggingface.co/SicariusSicariiStuff/Negative_LLAMA_70B。

讨论总结

这是一个关于Negative_LLAMA_70B模型的讨论。主要话题包括模型创建过程中的发现、存在的技术问题（如模型加载失败）、托管模型的情况、对模型进行测试的需求、对模型某些特性（如略暗基调）的推测原因以及关于模型能力（如解决电车难题）的探讨等。整体氛围比较积极，大家都在探索这个新模型的各方面情况。

主要观点

👍 新模型看起来很有前景
- 支持理由：评论者sophosympatheia表示Looks promising，感谢作者将模型贡献给社区
- 反对声音：无
🔥 之前模型存在积极性偏差和过度道德调整问题
- 正方观点：TAW56234指出之前模型存在这些问题，自己一直使用Qwen，期待试用新模型看是否会改变对LLaMa的看法
- 反方观点：无
💡 模型测试时从创意写作数据汲取知识和行为很明显
- 解释：作者Sicarius_The_First在测试模型时发现这一现象
💡 在ooba中无法加载Q4_K_M的问题
- 解释：评论者sottiletta112遇到此问题，作者表示会测试是否其他人也有此问题
💡 需要2.25bpw来测试模型，对模型成果好奇
- 解释：评论者FPham表示自己的测试需求并表达好奇

金句与有趣评论

“😂 sophosympatheia：Looks promising! Thanks for contributing this model to the community.”
- 亮点：对新模型表示看好并感谢作者分享
“🤔 Sicarius_The_First：When I was testing the model, I noticed it was drawing on knowledge and behaviors from the creative writing data.”
- 亮点：揭示模型测试时的一个有趣发现
“👀 TAW56234：I’m so happy this got your attention. Your merges feel the most alive and Midnight captured me and I always had the better experience story wise in terms of stability/needing to swipe but the biggest crux IS the positivity and what I dubbed, overtuned morality.”
- 亮点：阐述之前模型存在的问题并表达对新模型的期待
“😉 Sicarius_The_First：Midnight Miqu 1.5 was (and still) one of my all time favorites 👍🏻”
- 亮点：表明对Midnight Miqu 1.5的认可
“🤔 sottiletta112：Couldn’t load Q4_K_M in ooba "error loading model vocabulary: cannot find tokenizer merges in model file"”
- 亮点：提出模型加载时遇到的技术问题

情感分析

总体情感倾向是积极的。主要分歧点在于对模型略暗基调产生原因的看法。可能的原因是大家从不同的经验和角度出发，例如mailaai认为是使用小说微调的结果，而Sicarius_The_First对此表示怀疑。

趋势与预测

新兴话题：利用LoRa调节Negative_LLAMA_70B模型的负面性程度可能会引发后续讨论。
潜在影响：如果这个模型能够解决之前LLM存在的积极性偏差等问题，可能会对自然语言处理领域的模型发展产生积极影响，促使更多类似的改进和创新。

详细内容：

标题：关于新的微调模型 Negative_LLAMA_70B 的热门讨论

在 2025 年 1 月，Reddit 上有一个关于新的微调模型 Negative_LLAMA_70B 的热门帖子，获得了众多关注和大量的讨论。原帖介绍了尽管 LLAMA 3.3 作为助理表现出色，指令跟随能力强，但存在可预测、枯燥和积极偏差等问题。而 Negative_LLAMA_70B 则是为解决积极偏差而进行的尝试，同时保留了 LLAMA 3.3 70B 基础模型的卓越智能。

讨论的焦点集中在这个模型的多个方面。有人认为它看起来很有前景，并好奇创建模型过程中最有趣或最令人惊讶的部分。有人在测试模型时发现它能从创意写作数据中汲取知识和行为，也有人感觉某些角色似乎更积极地推动故事发展。还有人提到为测试模型，使用极简主义角色卡有助于暴露其“内在性格”。

有用户指出这个模型在角色扮演和创意写作方面能力强，积极偏差少，智能程度高且拒绝率低，能很好地遵循角色卡，角色感觉更“鲜活”，偶尔会自行发起动作。但也有人认为稍暗的基调是因为在微调中使用了虚构作品。

有用户表示很期待尝试这个模型，看看是否能改变对 LLAMA 模型的看法。还有用户探讨了模型在不同硬件和引擎上的支持情况，以及能否解决类似“死囚电车难题”这样的问题。有人提出 LoRa 技术会很实用，可以调整消极程度。

总的来说，关于 Negative_LLAMA_70B 模型，大家的讨论既充满期待，又不乏对其性能和特点的深入思考与争议。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#