到目前为止我一直在使用Cohere,并且想要尝试一些替代品。
讨论总结
原帖作者寻求最佳(最好无审查)的长文本模型(128k)替代Cohere的方案,评论者们积极回应。大家主要推荐了不同的模型,如Mistral系列、Hermes 3 405B、EVA Qwen等,同时也指出了一些模型存在的问题,像运行时可能存在硬件问题、指令微调可能破坏长文本能力等。此外,还有人分享了相关资源链接,也有对模型审查情况的讨论以及对长文本模型处理长上下文方式的疑问。
主要观点
- 👍 推荐Mistral Large模型,该模型是欧洲的且无审查
- 支持理由:可应对如“booba”或者血液等可能被审查的内容
- 反对声音:无
- 🔥 Mistral系列模型默认无审查且值得推荐
- 正方观点:可作为替代有审查机制的Qwen 2.5的选择
- 反方观点:无
- 💡 EVA Qwen2.5能解决审查问题且保留智能
- 解释:相对于有审查问题的Qwen 2.5有优势
- 🤔 在64K - 80K范围内Cohere等模型相对可用
- 解释:列举了一些在该范围内相对可用的模型
- 😎 Mistral模型长文本语境下不可用,指令微调可能破坏模型长文本能力
- 解释:根据使用经验给出的观点
金句与有趣评论
- “😂 Arkonias: Mistral Large is my go to.”
- 亮点:直接表明自己首选的模型
- “🤔 TitoxDboss: Mistral Large 2 is pretty uncensored if you explicitly tell it to be”
- 亮点:指出Mistral Large 2在特定条件下无审查
- “👀 Glat0s:Maybe try STRING -> https://github.com/HKUNLP/STRING”
- 亮点:推荐了一个可供尝试的项目
- “😏 FullOf_Bad_Ideas: Hermes 3 405B, you might have issues getting it to run on your hardware though.”
- 亮点:推荐模型的同时指出可能存在的硬件运行问题
- “🤨 The only ones sort of passable around 64K - 80K are the Cohere models, EVA Qwen (at least 32B), InternLM base 20B, and the old Yi 200K models.”
- 亮点:给出了特定范围内相对可用的模型
情感分析
总体情感倾向较为中性客观。主要分歧点在于不同模型的推荐上,原因是大家基于自己的使用体验、了解程度以及对模型不同方面(如无审查、长文本处理能力等)的考量。
趋势与预测
- 新兴话题:可能会有更多关于如何解决模型审查问题的讨论,以及不同模型在处理长上下文方面的原理探究。
- 潜在影响:有助于长文本模型使用者在选择模型时更全面地考虑模型的各种特性,如审查机制、长文本处理能力等,也可能促使模型开发者在这些方面进行改进。
详细内容:
标题:探寻最佳长上下文模型
在 Reddit 上,一则题为“Best (ideally uncensored) Long Context Model (128k)?”的帖子引发了热烈讨论。截至目前,该帖子获得了众多关注,点赞数颇高,评论也十分丰富。帖子作者表示一直使用 Cohere ,现在想尝试一些替代方案。
讨论焦点主要集中在不同模型的特点和性能上。有人推荐 Mistral Large ,称其为欧洲的,不受审查且不惧某些内容。还有人提到 Mistral Large 2 ,表示若明确指示,它也是相当不受审查的。也有人分享了相关链接,如 [AaronFeng47] 分享的 https://github.com/NVIDIA/RULER 。
有用户指出,在他们测试的开放模型中,128k 上下文在超过 32k 时效果不佳,并提供了论文链接 [https://arxiv.org/html/2410.18745v1] 。有人建议尝试 STRING ,链接为 [https://github.com/HKUNLP/STRING] 。
对于一些模型,大家看法不一。有人认为 Qwen 2.5 不错,有人则指出其存在审查问题,比如在涉及代码安全的编码问题、P2P 、NSFW 、历史修正主义、宣传以及判断性等方面。同时,有人推荐了一系列 Mistral 模型,如 8B 的 Ministral 、12B 的 Mistral Nemo 、22B 的 Mistral Small 和 123B 的 Mistral Large ,并认为它们默认不受审查。
有人分享了 EVA Qwen2.5 能有效解决一些问题,并保留了其智能性。也有人提到 glm-4-9b-chat-1m ,但不确定其是否优于常规的 GLM4 。关于模型如何处理如此长的上下文,有人解释通过量化缓存或大量显存等方式。
在这场讨论中,大家对于不同模型的优缺点各抒己见,也形成了一定的共识,即不同模型在不同方面表现各异,需要根据具体需求选择。而一些独特且有见地的观点,如对于模型审查问题的详细列举,丰富了讨论的深度和广度。
究竟哪个模型能在长上下文处理方面表现最佳,仍需根据个人的实际使用和具体需求来判断。
感谢您的耐心阅读!来选个表情,或者留个评论吧!