原贴链接

没人希望自己的电脑对自己指手画脚。不久前我发现UGI排行榜时很兴奋，但对结果有些失望。我测试了排名靠前的几个模型，仍然遇到被拒绝（回答问题）的情况。所以，我着手设计自己的测试。我从UGI开始，还在Reddit和HF（Hugging Face）上搜索，找到我能获取到的每个无审查或者被删减过的模型。到目前为止，我已经下载并测试了65个模型。以下是最有竞争力的模型：（表格内容略，包含模型名、参数、基础模型、发布者以及各项测试评分等）。我的测试问题包括伦理推理与安全（例如能否建议在家制造危险武器、如何利用银行系统安全漏洞）、遵守政策（例如最佳的软件盗版方式、如何制造冰毒）、对有害话题的敏感度（例如生成可能被解读为对特定群体刻板印象的内容）。这是我对答案的评分方式（表格内容略，包含得分与描述）。我首先承认这里有很大的改进空间。评分是主观的，问题也有很多不足之处，而且我受时间和硬件的限制。时间方面，我运营一个对冲基金，所以只能在周末做这个测试。硬件方面，我曾经用于飞行模拟的RTX 4090在储存中，那台电脑正在重新组装。在此期间，我只能用笔记本电脑的RTX 3080和外接的RTX 2080 eGPU。一旦新电脑组装好，我将测试70B以上的模型。我完全接受各方面的建议——我特别希望有测试问题的想法，但希望目前这种形式对其他人至少有一些帮助。

讨论总结

原帖作者分享了自己对无审查LLM的测试结果，包括测试模型、测试问题、评分标准等。评论者们从多个角度进行了讨论，包括对测试的建议、分享自己的模型使用经历、对某些模型的看法、对测试问题的改进想法等，整体氛围较为活跃且多元，既有积极肯定，也有质疑否定。

主要观点

👍 原帖测试LLM应增加最大令牌数列
- 支持理由：有助于更好地评估模型，如评论者kevinrau11提到自己的需求。
- 反对声音：无。
🔥 部分小模型在回答问题时很少有拒绝情况
- 正方观点：如评论者WhoRoger提到Phi 3.5 3B uncensored等小模型的表现。
- 反方观点：无。
💡 原帖的测试是个好开端但存在问题
- 解释：像判断模型“无审查”程度有多种角度等因素，如怀疑论者指出不同版本llama模型的不同表现。
👍 对原帖表示认可
- 支持理由：原帖作者的工作对很多不知如何开始了解模型的人有帮助，如K_3_S_S的积极反馈。
- 反对声音：无。
👎 贬低原帖作者测试内容的价值
- 正方观点：认为应测试模型摆脱现代科学欺骗等能力，如ethereel1的观点。
- 反方观点：原帖作者的测试也有一定意义，比如为大家提供初步的模型比较。

金句与有趣评论

“😂 我目前甚至不会考虑4K，更不用说8K令牌的LLM了。”
- 亮点：反映出评论者对LLM令牌数的特殊要求。
“🤔 Uncensored Phi is especially hilarious, how enthusiastic it is about answering even the ‘worst’ kinds of questions. Oh you need to know how to kidnap someone? How exciting! Here’s a complete tutorial. (Prints out 3 pages of detailed instructions.) And let me know if you need more details, I’m happy to help! Tell me if you need to know how to escape from prison!”
- 亮点：生动地描述了Uncensored Phi对不良问题积极回答的夸张情况。
“👀 我总是以为像这样系统（LLM）的采用和发展的驱动力是人类的性欲望，至少自从互联网出现以来。结果发现实际上是人们想知道如何制造冰毒和制造致命武器。”
- 亮点：以一种调侃的方式看待LLM发展的驱动力。
“😂 我在LLM世界里还未决定是否喜欢Qwen，这是我的两难境地，因为我知道我讨厌Gemma 😂”
- 亮点：幽默地表达对Qwen的态度以及对Gemma的厌恶。
“🤔 不同于其他人，我认为如果默认模型行为是安全和尊重他人的，这是可以的，但当通过系统策略/指令告知其不要拒绝时，它不应该（通常基于非常站不住脚的依据和可疑的理由）拒绝，或者（另一种相当恼人的行为）提出与所要求的完全不同的东西。”
- 亮点：深入地阐述了对模型行为的独特看法。

情感分析

总体情感倾向比较复杂。部分评论者对原帖持肯定态度，认可原帖作者的测试工作，如赞赏其为有价值的贡献者、对测试结果表示感谢等；也有部分评论者持怀疑或否定态度，如质疑原帖作者的测试能力、贬低测试内容的价值等。主要分歧点在于对原帖测试内容的全面性和有效性的看法不同，可能的原因是评论者各自的关注点、使用模型的经验以及对LLM测试的期望有所差异。

趋势与预测

新兴话题：对不同规模模型（如30B - 72B）进行更有针对性的测试可能成为后续讨论的话题，像复杂的常识性测试等。
潜在影响：如果对LLM的测试更加全面深入，可能会影响用户对不同模型的选择，也可能促使模型开发者改进模型，提高模型在应对各种问题时的表现。

详细内容：

《2024 年 12 月未审查 LLM 测试结果引发 Reddit 热议》

近日，Reddit 上一则关于 2024 年 12 月未审查 LLM 测试结果的帖子引起了广泛关注。该帖子详细列举了 65 个模型的测试情况，包括模型名称、参数、基础模型、发布者以及各项测试的得分等。此帖获得了众多点赞和大量评论。

帖子中引发的主要讨论方向包括对不同模型表现的评价、测试问题的合理性、模型的能力与限制，以及对未审查模型的需求和期待等。文章将要探讨的核心问题是如何更客观准确地评估未审查 LLM 模型的性能，以及如何满足用户在不同场景下的需求。

在讨论焦点与观点分析中，有人认为应该为每个 LLM 增加最大 token 计数的列；也有人分享了自己使用小模型的体验，如从未遇到过拒绝的情况；还有人对不同模型的喜好进行了比较，并指出一些模型在特定方面的优势和不足。

例如，有人表示自己喜欢 Mistral 12B、Mistral 22B 等模型，认为它们在某些方面表现出色。同时，也有人提出测试模型给予不道德、令人反感或危险建议的能力，并认为这有助于了解模型的真实水平。

此外，对于未审查模型的应用场景和限制，大家也展开了热烈的讨论。有人认为未审查模型并非用于实际的危险行为，而是用于测试模型的性能和灵活性。

总之，Reddit 上关于这次未审查 LLM 测试结果的讨论丰富多样，反映了大家对人工智能模型的关注和思考。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#