直到几周前,我都从未听说过智谱的GLM-4-9B - Chat。然后我在Ollama模型列表中看到了它,也在专注于长内容输出的优秀大语言模型Longwriter的基础模型中看到了它。经过进一步研究,我发现GLM - 4 - 9b - Chat在休斯幻视评估排行榜上排名第一,击败了01 - mini(第二名)、GPT - 40、Deepseek、Qwen2.5等模型。根据HHEM统计数据,GLM4 - 9b - chat的幻视率仅为1.3%,事实正确率为98.7%。对于RAG任务来说,这太棒了!我以前认为Command - R是RAG模型之王,但它的幻视率(根据排行榜)为4.9%(仍然不错,但不如GLM的1.3%好)。该模型在启用A100的Azure VM上以FP16完美适配。我以64K的上下文运行它,但如果我想提高到128k也可以。在FP16和64K上下文下,它占用约64GB的VRAM(加上嵌入模型约900mb)。将其与用于嵌入模型的Nomic - embed - large和用于向量数据库的ChromaDB配对,在由大约200个大小从100k到5MB不等的相当密集和复杂的PDF组成的知识库中,我在5 - 7秒内(51.73个响应令牌/秒)得到近乎即时的RAG提示响应(使用Ollama后端和Open WebUI前端)。该模型在响应中使用Markdown格式是我使用过的所有模型中最好的。我知道有更“智能”的模型可以使用,但GLM4 - 9b现在是我处理所有RAG任务的正式日常工具,因为它在回答RAG问题时似乎不会给出无意义的答案。其他人有类似的结果吗?
讨论总结
原帖作者分享了ZHIPU’s GLM - 4 - 9B - Chat在RAG任务中的出色表现,如低幻觉率、在特定环境的适配等。评论者们展开了多方面的讨论,有询问构建RAG应用相关设置的,有打算尝试该模型并进行比较的,有质疑原帖引用排行榜可靠性的,还有关注模型在高语境下表现、在中国事务审查情况、是否能提供信息溯源等,也有人针对模型运行和训练的硬件、步骤以及PDF分块等技术问题进行提问,整体讨论热度较低且氛围理性。
主要观点
- 👍 想要构建RAG应用,不知从何入手,向原帖作者寻求帮助。
- 支持理由:原帖展示模型在RAG任务中的优势,激发构建兴趣。
- 反对声音:无。
- 🔥 原帖引用的排行榜评估模型不可靠。
- 正方观点:排行榜评估用另一个模型,自己有类似失败评估经历。
- 反方观点:无。
- 💡 GLM - 4 - 9B - Chat在高语境下表现良好。
- 解释:能加载高价值语境,经处理与模型交流有好结果。
- 💡 关注ZHIPU’s GLM - 4 - 9B - Chat模型在中国事务方面的审查情况。
- 解释:原帖介绍模型优势后引发对其在中国事务审查情况的关注。
- 💡 希望了解GLM - 4 - 9B - Chat模型是否能像其他模型一样为输出的声明提供来源。
- 解释:关注模型在RAG任务中的功能完整性。
金句与有趣评论
- “😂 嘿,你能分享一下你的设置是什么样的吗?我也在尝试构建我的第一个RAG应用,但不知道从哪里开始。”
- 亮点:直接表达构建RAG应用的无助,寻求帮助。
- “🤔 我认为如果能进一步解释设置并展示代码会对他人更有益,但无论如何还是感谢你的分享。”
- 亮点:对代码分享提出建设性意见。
- “👀 评论者zero0_one1:The leaderboard you’re citing uses another model for evaluation, which is very unreliable.”
- 亮点:直接指出原帖引用排行榜的问题。
情感分析
总体情感倾向较为中性,主要分歧点在于原帖引用排行榜评估模型的可靠性。可能的原因是原帖作者基于排行榜数据表明模型优势,而评论者有相关失败经历所以质疑。
趋势与预测
- 新兴话题:GLM - 4 - 9B - Chat模型的微调不受限制可能会引发关于模型自由度和适用性的后续讨论。
- 潜在影响:如果模型在中国事务审查方面有更多信息披露,可能影响其在相关领域的应用推广。
详细内容:
标题:ZHIPU 的 GLM-4-9B-Chat(fp16)在 RAG 任务中表现出色引发热议
在 Reddit 上,有一则关于 ZHIPU 的 GLM-4-9B-Chat(fp16)的讨论引起了众多关注。该帖子点赞数众多,评论也十分热烈。原帖称,直到几周前,作者才听说这个模型,而后发现它在 Ollama 模型列表和 Longwriter LLM 的基础模型中出现。经过进一步研究,该模型在 Hughes Hallucination Eval Leaderboard 上排名第一,其幻觉率仅为 1.3%,事实准确率高达 98.7%。帖子还介绍了该模型在 A100 启用的 Azure VM AT FP16 上的适配情况、与其他模型的对比,以及搭配 Nomic-embed-large 和 ChromaDB 时的出色表现。文中还提到了模型在响应中使用 Markdown 格式的优点。原帖作者最后询问是否有其他人也有类似的良好体验。
在讨论中,观点众多。有人询问作者如何进行设置,有人分享了自己的相关代码和经验。例如,有用户分享道:“嘿,不是原帖作者但我已经建立了自己的管道和其他东西:https://github.com/rmusser01/tldw/blob/main/App_Function_Libraries/RAG/RAG_Libary_2.py 。” 也有人对一些系统和人的抽象表示不满。
有人认为 Gemma 2 2b 效果不错,但还是打算尝试 GLM-4-9B-Chat。有人对该模型在处理高上下文方面给予肯定。还有人关心模型在涉及中国事务方面的审查情况,有人提供了相关链接。
关于模型评估的可靠性也存在争议,有人指出原帖所引用的排行榜使用了另一个模型进行评估,不太可靠,并分享了自己的相关经历。
对于模型能否像 Nous Hermes 3 和 Command R 特定提示那样在输出中提供来源参考,以及如何对 PDF 进行分块等技术问题,大家也各抒己见。有人表示尽管语义分块听起来是个好主意,但实际未取得良好效果,通过对分块大小进行超参数优化反而更有效。
总的来说,这一讨论展示了大家对 ZHIPU 的 GLM-4-9B-Chat(fp16)模型的关注和探索,也反映了在模型应用中的各种问题和思考。但该模型是否真的如大家所讨论的那样出色,还需要更多的实践和评估来验证。
感谢您的耐心阅读!来选个表情,或者留个评论吧!