模型与技术 新模型发布

Wayfarer Large表现出色及其示例聊天

[关于Wayfarer Large模型的讨论,涉及模型优缺点、与其他模型的比较、可能的关联以及推广信息等,整体氛围较为积极且讨论内容丰富多样]

 ·  · 
模型与技术 技术讨论

防止大型语言模型(LLM)产生幻觉的可靠性层

[帖子介绍了防止LLM幻觉的可靠性层工作及其成果,评论围绕使用的模型、本地模型测试、可靠性层的技术细节、RPA的使用等展开,氛围较为理性平和]

 ·  · 
模型与技术 其他

适合哲学对话/头脑风暴的小模型(22B以下)推荐

[原帖寻求适合哲学对话/头脑风暴的无审查小模型,评论主要围绕推荐各种模型、模型的性能、在哲学探讨中的表现以及未审查的特点等展开,整体氛围较为理性和平和。]

 ·  · 
模型与技术 其他

希望哪些模型转换为MLX

[该讨论围绕将特定模型转换为MLX展开,包括对特定模型转换的请求、性能比较、转换中遇到的问题以及寻求转换方法等内容,整体氛围较为理性务实]

 ·  · 
模型与技术 性能对比

使用1.5B模型测试大语言模型空间推理能力(通过解迷宫)

[原帖讲述用GRPO - ed 1.5B模型测试LLM空间推理能力(解迷宫),评论包含对工作的认可、疑问、建议等多种观点,整体氛围积极]

 ·  · 
模型与技术 性能对比

Grok 3与Deepseek r1的个人基准测试结果

[原帖对Grok 3和Deepseek r1在推理、数学、编码和写作方面进行比较,评论者们从不同角度如模型开源性、测试合理性、特定能力等对这两个模型进行讨论,有支持、质疑等不同情感倾向。]

 ·  · 
模型与技术 新模型发布

DeepSeek R1现可进行函数调用

[围绕DeepSeek R1的函数调用功能展开讨论,涉及函数调用的实现方式、模型能力、相关概念质疑、在代理系统中的应用等多方面内容,整体氛围积极探讨技术问题]

 ·  · 
模型与技术 性能对比

基础模型是否已达扩展瓶颈?

[原帖探讨基础模型是否达到扩展瓶颈,评论观点各异,有认为未触及瓶颈、有认为存在多种限制因素,还涉及对AGI的看法、模型能力对比等多方面讨论]

 ·  · 
模型与技术 性能对比

不同任务下的最佳7B - 32B语言模型推荐

[原帖对不同参数的LLMs在多任务中的最佳模型进行推荐并给出运行要求和设备适配,评论者有表示赞同、补充建议、质疑推荐合理性等不同态度,还涉及硬件、云服务与本地模型等话题]

 ·  · 
模型与技术 新模型发布

OpenThinker:32B推理模型

[围绕OpenThinker模型展开讨论,涉及模型性能、审查情况、是否需要去审查、对模型的信任度以及一些使用场景中的道德伦理等问题,整体氛围较为理性探讨]

 ·  ·