模型与技术 其他

DeepSeek - V3 - 0324 GGUF - Unsloth模型相关资源

[帖子围绕DeepSeek - V3 - 0324 GGUF - Unsloth展开,涉及模型量化、硬件资源、性能、格式转换等多方面的讨论,整体氛围以技术交流为主。]

 ·  · 
模型与技术 新模型发布

DeepSeek - V3 - 0324更新日志

[围绕DeepSeek - V3 - 0324展开讨论,包括其发展情况、测试评价、得分期待、对API使用模型版本的质疑以及模型推理能力相关的探讨,整体氛围较为理性和专业]

 ·  · 
模型与技术 性能对比

谷歌称Gemini 2.5超越其他思维模型

[围绕Google声称Gemini 2.5超越其他思维模型展开讨论,有对其优势的肯定也有诸多质疑,整体氛围充满争议]

 ·  · 
模型与技术 性能对比

深擎V3(重大改进)与Gemini 2.5 Pro(SOTA)长文本测试

[该讨论围绕New DeepSeek V3和Gemini 2.5 Pro长情境测试展开,涉及模型准确率、测试基准、模型价值等多方面观点,整体氛围理性且多元]

 ·  · 
模型与技术 模型更新

DeepSeek - V3 - 0324模型卡依据基准更新

[围绕DeepSeek - V3 - 0324 HF模型卡更新展开讨论,涉及模型温度默认值改变的争议、与OpenAI的比较、模型改进、使用成本、写作风格等多个话题,氛围有争议也有积极评价]

 ·  · 
模型与技术 新模型发布

Qwen系列新消息引发关注

[关于Qwen相关产品发布后的讨论,涉及推测新发布版本、性能比较、产品使用、对发布内容的期待与怀疑等多方面,整体氛围有好奇、期待也有怀疑]

 ·  · 
模型与技术 技术讨论

近期模型让我觉得注意力机制就足够了

[原帖认为注意力、规模和强化学习就能达到人类水平代理性能,评论中有人赞同、有人反对,还讨论了Transformer的问题、人类与LLMs对比、泛化能力等话题,氛围比较热烈且充满争议]

 ·  · 
模型与技术 性能对比

Deepseek V3 0324在OpenHands下获38.8% SWE - Bench验证

[围绕Deepseek V3 0324在SWE - Bench中获得38.8%这一事件展开讨论,涉及模型分数对比、不同模型组合的看法、模型性能评估、来源提供等,讨论氛围较理性平和]

 ·  · 
模型与技术 性能对比

DeepSeek V3.1一次性网站

[围绕One shot website (DeepSeek V3.1)展开讨论,涉及与Claude 3.7对比、网站使用的技术、对工作的影响等多方面内容,氛围较为积极活跃]

 ·  · 
模型与技术 新模型发布

Amoral Gemma3 v2发布,拒绝率显著降低

[围绕Amoral Gemma3 v2展开讨论,主要是正面评价,还有人好奇其训练方式和数据集,有人想测试并分享结果,也有人关注其在创意写作方面的表现]

 ·  ·