模型与技术 性能对比

DeepSeek - R1(预览版)在LiveCodeBench上的基准测试

[围绕DeepSeek - R1预览版在LiveCodeBench上的基准测试展开讨论,包括模型性能、版本、准确性等多方面内容,氛围积极且充满好奇]

 ·  · 
模型与技术 性能对比

新推理模型为何通不过‘苹果’测试基准?

[原帖探讨不同LLM的“苹果测试”结果,评论围绕模型能否通过测试、失败原因、测试指令调整、模型能力及相关概念等展开,整体氛围较理性探索]

 ·  · 
模型与技术 性能对比

LLM频繁出现固定措辞现象

[该讨论围绕LLM中重复表述的现象展开,探讨了产生的原因、存在的问题、解决的办法以及相关技术操作,整体氛围较为积极地寻求解决之道。]

 ·  · 
模型与技术 新模型发布

推出Wayfarer:极具挑战性的角色扮演模型

[围绕Wayfarer模型展开讨论,包含模型特性、类比、体验感受、硬件需求等,整体氛围积极正面]

 ·  · 
模型与技术 技术讨论

ElevenLabs的技术奥秘

[原帖询问ElevenLabs为何如此优秀,评论从数据质量、模型来源、技术推测等多方面进行讨论,总体氛围积极且充满技术交流]

 ·  · 
模型与技术 性能对比

DeepSeek V3是否被过度炒作?

[围绕DeepSeek V3是否被过度炒作展开讨论,涉及与Sonnet等模型在性能、成本、编码等多方面对比,观点多元且总体氛围较理性]

 ·  · 
模型与技术 新模型发布

MiniMax - AI发布全新SOTA MOE开源模型,上下文达4M

[围绕MiniMax - 01开源模型,大家从其与公司关联、在家庭硬件运行可行性、与其他模型比较、审查制度、是否有免费聊天界面等方面展开讨论,整体氛围积极且充满探索性]

 ·  · 
模型与技术 性能对比

新函数调用基准测试表明Python方法优于JSON

[新的DPAB - α基准测试表明Pythonic函数调用在LLM中常优于JSON方法,引发关于二者对比、Pythonic方法的优劣、测试合理性等多方面的讨论,整体氛围以理性探讨为主]

 ·  · 
模型与技术 新模型发布

InternLM3 - 8B - Instruct发布,Apache 2.0许可,使用体验如何?

[InternLM3 - 8B - Instruct发布后,大家分享使用体验,涉及小说创作、编码、模型测试、防护等多方面内容,整体氛围较为理性平和]

 ·  · 
模型与技术 新模型发布

谷歌发布新架构

[Google发布新架构引发众多讨论,涉及从技术细节、功能需求到版权问题等多方面,有期待也有质疑,整体讨论氛围积极且充满探索性]

 ·  ·