模型与技术 新模型发布

SmolVLM 256M:全球最小多模态模型,于WebGPU上在浏览器本地100%运行

[围绕SmolVLM 256M这个世界上最小的多模态模型展开讨论,涉及模型资源提供、运行相关问题以及对模型的肯定与质疑,总体氛围积极且充满探索性]

 ·  · 
模型与技术 性能对比

FuseO1 - DeepSeekR1 - QwQ - SkyT1 - 32B - Preview的R1蒸馏成果

[原帖提到FuseO1 - DeepSeekR1 - QwQ - SkyT1 - 32B - Preview的量化版本相关情况,评论者围绕其性能、量化过程、资源使用、与其他模型对比等多方面展开讨论,整体氛围理性且技术交流为主]

 ·  · 
模型与技术 性能对比

DeepSeek-R1-Distill结果大多无法复现

[原帖指出DeepSeek - R1 - Distill模型结果难以复现,评论者从测试方法、模型模板、量化影响、基准数据等多方面展开讨论,有质疑也有补充体验,整体氛围充满探索性]

 ·  · 
模型与技术 新模型发布

Salt:基于大语言模型的语音生成新方法(含开源代码)

[介绍Salt语音生成项目的帖子引发讨论,包括代码错误、许可证问题、与其他项目比较等内容,大家对项目前景看法不一]

 ·  · 
模型与技术 训练与微调技术

预训练小模型:162M模型预训练的一些经验总结

[原帖分享预训练162M小模型的经验及教程,评论者们多表达认可赞赏,有围绕教程展开的交流、预训练经历分享、技术相关探讨等,整体氛围积极]

 ·  · 
模型与技术 新模型发布

DeepSeek R1 Distill Qwen 2.5 32B去抑制版(无审查)发布

[围绕DeepSeek R1 Distill Qwen 2.5 (32B)消融版本展开讨论,包括NSFW测试、模型无法拒绝请求的特性、消融对模型性能的影响等,总体氛围较为理性探讨]

 ·  · 
模型与技术 新模型发布

着迷于观察模型的思考输出

[帖子关于对观看R1思考输出的痴迷与否展开讨论,包含其在语言学习中的作用、技术问题、观看思考输出的感受、对思考模式的看法等多方面内容,整体讨论热度较低,氛围较为平和。]

 ·  · 
模型与技术 新模型发布

OpenAI推出Operator:计算机使用代理

[OpenAI推出Operator后,评论者反应不一,有持观望态度、不看好、失望的,也有期待其发展的]

 ·  · 
模型与技术 技术讨论

2024年未接触本地大语言模型,2025年快速回顾

[原帖作者询问2024年未接触本地LLMs后现在能运行的模型,评论者们从不同角度给出了包括模型推荐、量化建议、2024年LLMs发展等多方面的回答,整体氛围积极且有干货]

 ·  · 
模型与技术 技术讨论

可从R1提取推理并传递给任意模型

[关于从R1提取推理传递给其他模型的话题,大家讨论了相关技术操作、模型组合、成本、效果等方面的内容,有支持有质疑,整体氛围积极且充满探索性]

 ·  ·