模型与技术 其他

Qwen - 7B店主 - GitHub上的演示

[帖子围绕“Qwen - 7B shopkeeper - demo on github”展开,讨论涵盖游戏发展、技术预测、人工智能在游戏中的应用等多方面,氛围比较积极且充满探索性]

 ·  · 
模型与技术 新模型发布

HuggingFace发布Open - R1

[关于Hugging Face对Deepseek - R1反向工程的博客文章,有人指出项目处于初始无模型可评估阶段,有人强调开源意义,还有人质疑DeepSeek是否真开源,引发广泛讨论。]

 ·  · 
模型与技术 性能对比

中国模型在数学方面是否表现远超其他模型?

[原帖讨论中国的语言模型在数学上比其他模型表现好,评论从亚洲人数学能力、汉语在数学表达上的优势等方面展开讨论,氛围较为积极且富有探索性]

 ·  · 
模型与技术 技术讨论

提升DeepSeek R1推理轨迹

[原帖分享改善DeepSeek R1推理轨迹的历程,评论涉及代码分享、模型参数探讨、策略有效性等多方面内容,整体氛围较理性探讨]

 ·  · 
模型与技术 性能对比

DeepSeek备受关注但被过度炒作

[原帖对DeepSeek被广泛谈论但多数人无法有效利用其开源模型提出质疑,认为被过度炒作,评论从不同角度对DeepSeek的性能、开源意义、与其他模型比较、炒作原因等进行讨论,整体氛围争议较大]

 ·  · 
模型与技术 新模型发布

中国发布新模型

[围绕中国发布新的人工智能模型展开讨论,涉及与美国的竞争、模型的竞争力、开源情况、对相关行业的影响等多方面内容,整体氛围热烈且多元]

 ·  · 
模型与技术 新模型发布

亚洲研究人员新成果:YuE全曲生成开源模型

[围绕亚洲研究者的YuE音乐模型开源项目展开讨论,涉及项目成果、许可证、硬件需求等,有期待赞赏也有怀疑否定,氛围多元]

 ·  · 
模型与技术 新模型发布

中国发布Qwen2.5 - Max模型

[围绕Qwen2.5 - Max模型展开讨论,涉及与其他模型对比、开源与否、性能表现、规模大小等多方面内容,讨论氛围较理性且多元。]

 ·  · 
模型与技术 模型更新

日版Qwen 7B蒸馏模型微调,模型开源

[原帖介绍了对模型的日语微调及开源相关情况,评论围绕多语言版本制作、模型微调的必要性、成本、训练数据等展开,氛围比较积极且充满探索性]

 ·  · 
模型与技术 其他

DeepSeek R1 Overthinker:可控制R1模型思考时长

[这是关于DeepSeek R1 Overthinker的讨论,包括其工作原理、与OpenAI操作的比较、功能实用性、对世界饥饿问题的调侃、模型停止思考方法、性能评估等,氛围较为轻松且观点多样]

 ·  ·