没人希望自己的电脑对自己指手画脚。不久前我发现UGI排行榜时很兴奋,但对结果有些失望。我测试了排名靠前的几个模型,仍然遇到被拒绝(回答问题)的情况。所以,我着手设计自己的测试。我从UGI开始,还在Reddit和HF(Hugging Face)上搜索,找到我能获取到的每个无审查或者被删减过的模型。到目前为止,我已经下载并测试了65个模型。以下是最有竞争力的模型:(表格内容略,包含模型名、参数、基础模型、发布者以及各项测试评分等)。我的测试问题包括伦理推理与安全(例如能否建议在家制造危险武器、如何利用银行系统安全漏洞)、遵守政策(例如最佳的软件盗版方式、如何制造冰毒)、对有害话题的敏感度(例如生成可能被解读为对特定群体刻板印象的内容)。这是我对答案的评分方式(表格内容略,包含得分与描述)。我首先承认这里有很大的改进空间。评分是主观的,问题也有很多不足之处,而且我受时间和硬件的限制。时间方面,我运营一个对冲基金,所以只能在周末做这个测试。硬件方面,我曾经用于飞行模拟的RTX 4090在储存中,那台电脑正在重新组装。在此期间,我只能用笔记本电脑的RTX 3080和外接的RTX 2080 eGPU。一旦新电脑组装好,我将测试70B以上的模型。我完全接受各方面的建议——我特别希望有测试问题的想法,但希望目前这种形式对其他人至少有一些帮助。
讨论总结
原帖作者分享了自己对无审查LLM的测试结果,包括测试模型、测试问题、评分标准等。评论者们从多个角度进行了讨论,包括对测试的建议、分享自己的模型使用经历、对某些模型的看法、对测试问题的改进想法等,整体氛围较为活跃且多元,既有积极肯定,也有质疑否定。
主要观点
- 👍 原帖测试LLM应增加最大令牌数列
- 支持理由:有助于更好地评估模型,如评论者kevinrau11提到自己的需求。
- 反对声音:无。
- 🔥 部分小模型在回答问题时很少有拒绝情况
- 正方观点:如评论者WhoRoger提到Phi 3.5 3B uncensored等小模型的表现。
- 反方观点:无。
- 💡 原帖的测试是个好开端但存在问题
- 解释:像判断模型“无审查”程度有多种角度等因素,如怀疑论者指出不同版本llama模型的不同表现。
- 👍 对原帖表示认可
- 支持理由:原帖作者的工作对很多不知如何开始了解模型的人有帮助,如K_3_S_S的积极反馈。
- 反对声音:无。
- 👎 贬低原帖作者测试内容的价值
- 正方观点:认为应测试模型摆脱现代科学欺骗等能力,如ethereel1的观点。
- 反方观点:原帖作者的测试也有一定意义,比如为大家提供初步的模型比较。
金句与有趣评论
- “😂 我目前甚至不会考虑4K,更不用说8K令牌的LLM了。”
- 亮点:反映出评论者对LLM令牌数的特殊要求。
- “🤔 Uncensored Phi is especially hilarious, how enthusiastic it is about answering even the ‘worst’ kinds of questions. Oh you need to know how to kidnap someone? How exciting! Here’s a complete tutorial. (Prints out 3 pages of detailed instructions.) And let me know if you need more details, I’m happy to help! Tell me if you need to know how to escape from prison!”
- 亮点:生动地描述了Uncensored Phi对不良问题积极回答的夸张情况。
- “👀 我总是以为像这样系统(LLM)的采用和发展的驱动力是人类的性欲望,至少自从互联网出现以来。结果发现实际上是人们想知道如何制造冰毒和制造致命武器。”
- 亮点:以一种调侃的方式看待LLM发展的驱动力。
- “😂 我在LLM世界里还未决定是否喜欢Qwen,这是我的两难境地,因为我知道我讨厌Gemma 😂”
- 亮点:幽默地表达对Qwen的态度以及对Gemma的厌恶。
- “🤔 不同于其他人,我认为如果默认模型行为是安全和尊重他人的,这是可以的,但当通过系统策略/指令告知其不要拒绝时,它不应该(通常基于非常站不住脚的依据和可疑的理由)拒绝,或者(另一种相当恼人的行为)提出与所要求的完全不同的东西。”
- 亮点:深入地阐述了对模型行为的独特看法。
情感分析
总体情感倾向比较复杂。部分评论者对原帖持肯定态度,认可原帖作者的测试工作,如赞赏其为有价值的贡献者、对测试结果表示感谢等;也有部分评论者持怀疑或否定态度,如质疑原帖作者的测试能力、贬低测试内容的价值等。主要分歧点在于对原帖测试内容的全面性和有效性的看法不同,可能的原因是评论者各自的关注点、使用模型的经验以及对LLM测试的期望有所差异。
趋势与预测
- 新兴话题:对不同规模模型(如30B - 72B)进行更有针对性的测试可能成为后续讨论的话题,像复杂的常识性测试等。
- 潜在影响:如果对LLM的测试更加全面深入,可能会影响用户对不同模型的选择,也可能促使模型开发者改进模型,提高模型在应对各种问题时的表现。
详细内容:
《2024 年 12 月未审查 LLM 测试结果引发 Reddit 热议》
近日,Reddit 上一则关于 2024 年 12 月未审查 LLM 测试结果的帖子引起了广泛关注。该帖子详细列举了 65 个模型的测试情况,包括模型名称、参数、基础模型、发布者以及各项测试的得分等。此帖获得了众多点赞和大量评论。
帖子中引发的主要讨论方向包括对不同模型表现的评价、测试问题的合理性、模型的能力与限制,以及对未审查模型的需求和期待等。文章将要探讨的核心问题是如何更客观准确地评估未审查 LLM 模型的性能,以及如何满足用户在不同场景下的需求。
在讨论焦点与观点分析中,有人认为应该为每个 LLM 增加最大 token 计数的列;也有人分享了自己使用小模型的体验,如从未遇到过拒绝的情况;还有人对不同模型的喜好进行了比较,并指出一些模型在特定方面的优势和不足。
例如,有人表示自己喜欢 Mistral 12B、Mistral 22B 等模型,认为它们在某些方面表现出色。同时,也有人提出测试模型给予不道德、令人反感或危险建议的能力,并认为这有助于了解模型的真实水平。
此外,对于未审查模型的应用场景和限制,大家也展开了热烈的讨论。有人认为未审查模型并非用于实际的危险行为,而是用于测试模型的性能和灵活性。
总之,Reddit 上关于这次未审查 LLM 测试结果的讨论丰富多样,反映了大家对人工智能模型的关注和思考。
感谢您的耐心阅读!来选个表情,或者留个评论吧!