附上三张图片链接(具体内容未知)。平均会产生12K个不相关的标记(token),因为这是我尝试的第一个EXAONE模型,所以有点失望。另一方面,其他类似规模的推理模型产生的结果通常少于1K个标记,即使它们可能时好时坏。然而,这个模型总是不能达到要求或者理解问题。我按照他们GitHub仓库中提供的模板和设置操作的。我看到有对它的小版本(2.4B)的赞扬帖子。我是不是遗漏了什么?我使用了来自https://huggingface.co/mradermacher/EXAONE-Deep-7.8B - i1 - GGUF的Q4_K_M量化,以及来自EXAONE仓库https://github.com/LG - AI - EXAONE/EXAONE - Deep#lm - studio的LM Studio指令。
讨论总结
这是一个关于EXAONE - Deep - 7.8B模型的讨论。原帖作者认为这个模型可能是最差的推理模型,许多评论者分享了自己使用该模型或其他相关模型的经历,如模型产生过多不相关令牌、运算速度慢等表现不佳的情况,但也有评论者提出可能是原帖作者的配置或量化有问题,还有人提到该模型的许可证条款糟糕不想使用,整体氛围是对该模型性能的质疑与探讨。
主要观点
- 👍 EXAONE - Deep - 7.8B模型表现差
- 支持理由:如原帖作者提到平均12K不相关思考令牌数,其他评论者称运算速度慢、结果差等。
- 反对声音:有评论者认为原帖作者配置或量化存在问题,自己运行时表现良好。
- 🔥 q8模型比q4模型表现好
- 正方观点:soumen08称q8模型能正确回答问题,而q4模型存在问题。
- 反方观点:无明确反对,但有对q4是本身损坏还是量化质量损失的怀疑。
- 💡 模型在低量化水平下表现不佳
- 解释:soumen08提出推理类大型语言模型在低量化水平下表现不佳的观点。
- 👍 EXAONE - Deep - 7.8B模型的许可证条款糟糕
- 支持理由:LG拥有所有输出成果,限制太多。
- 反对声音:无。
- 🔥 原帖作者可能配置或量化有误
- 正方观点:有评论者以自己8位MLX运行此模型时表现好来证明。
- 反方观点:原帖作者及其他体验差的评论者未明确反对,但分享了按照官方设置仍表现差的经历。
金句与有趣评论
- “😂 tengo_harambe: wait till you try their washing machines”
- 亮点:以幽默调侃的方式暗示模型所属公司其他产品可能也存在问题。
- “🤔 soumen08: Can confirm the issue is q4.”
- 亮点:直接指出问题可能出在q4上,引发后续关于q4的讨论。
- “👀 hannibal27: Sim horrível, testei com o maior e também tive problemas”
- 亮点:简洁地表达了测试模型时遇到问题,认同模型表现糟糕。
- “😏 That’s ok, because the license is absolutely atrocious so I don’t really want to use it.”
- 亮点:明确指出因为许可证糟糕所以不使用模型,不管模型表现如何。
- “🤨 I hope this performance is the result of a bad config, because honestly, it’s horrible.”
- 亮点:表达希望模型差性能是配置导致的,对模型表现差提出一种可能的解释。
情感分析
总体情感倾向是负面的,主要分歧点在于模型表现差是模型本身的问题还是使用者配置或量化的问题。可能的原因是不同用户使用的环境、量化方式、配置等不同,导致对模型性能的体验和评价不同。
趋势与预测
- 新兴话题:非官方量化可能是改善模型表现的一个方向,如有人推荐等待非官方量化制作者的成果。
- 潜在影响:如果模型表现差是因为配置或量化等可调整的因素,那么通过改进这些因素可能会提升模型在相关领域(如推理任务)的实用性;如果是模型本身问题,可能会影响该模型的推广和使用,也可能促使开发团队进行改进。
详细内容:
标题:关于 EXAONE-Deep-7.8B 模型的热门讨论
近日,Reddit 上一篇关于“EXAONE-Deep-7.8B 可能是我尝试过的最差推理模型”的帖子引起了广泛关注。该帖子获得了众多点赞和大量评论。
原帖作者表示,该模型平均产生 12K 个不相关的令牌,这让他感到非常失望,因为这是他首次尝试该 EXAONE 模型。相比之下,其他类似大小的推理模型通常产生少于 1K 令牌的结果。尽管如此,该模型始终无法命中目标或回答问题,作者遵循了 GitHub 存储库中提供的模板和设置。作者还提到看到了对其较小的兄弟模型(2.4B)的赞誉帖子,并怀疑自己是否遗漏了什么。同时,作者使用了来自https://huggingface.co/mradermacher/EXAONE-Deep-7.8B-i1-GGUF的 Q4_K_M 量化,以及来自 EXAONE 存储库的 LM Studio 指令https://github.com/LG-AI-EXAONE/EXAONE-Deep#lm-studio。
讨论的焦点主要集中在以下几个方面: 有人认为自己可以创建一个更糟糕的模型;也有人质疑这是否是一种全新的技术,还是类似于 GRPO 的翻转符号。还有用户分享道,这个模型生成了 4096 个令牌,超出了上下文并出现错误,链接为:https://i.imgur.com/tZjXuRn.png。有人拒绝相信这是正确配置模型的输出。有人认为可能是配置错误,比如语言不会随机切换。还有人确认问题在于 q4,尝试 q8 模型能正确回答问题。有人思考这是特定 Q4 损坏,还是该量化水平的质量损失过多。也有人认为推理 LLM 在低量化时表现不佳。有人使用 Q6 时,发现模型喜欢自言自语,要求其用 Python 写一个 Flappy Bird 克隆程序,它思考了 18k 令牌。
对于该模型的表现,大家看法不一。有人认为它比 QwQ 推理时间更长但结果更差,有人则建议将重复惩罚设置为 1.0。还有人指出之前的 EXAONE 版本也存在相同问题。有人认为这与模型无关,可能是配置问题。也有人倾向于避免官方量化,等待非官方量化。有人认为 LG 拥有所有输出的许可证非常严格。有人尝试 2.4B 模型,虽然思考时间长但最终得到了正确答案。有人分享自己要求模型制作计算器,长时间思考后退出,认为不值得测试。
讨论中的共识在于大家都在积极探讨该模型存在的问题及可能的解决方案。特别有见地的观点是,有人详细分析了不同量化水平的表现差异,丰富了对问题的理解。
总之,关于 EXAONE-Deep-7.8B 模型的讨论仍在继续,大家都期待能够找到更好的解决办法,以提升模型的性能。
感谢您的耐心阅读!来选个表情,或者留个评论吧!