DeepSeek发布第二个OSS包 - DeepEP
[关于DeepSeek 2nd OSS package - DeepEP - Expert parallel FP8 MOE kernels,有人概括其特性,也有人对其不支持消费级GPU表示遗憾,还有人指出特定GPU支持趋势以及制作相关网站引发身份质疑等情况]
[关于DeepSeek 2nd OSS package - DeepEP - Expert parallel FP8 MOE kernels,有人概括其特性,也有人对其不支持消费级GPU表示遗憾,还有人指出特定GPU支持趋势以及制作相关网站引发身份质疑等情况]
[WAN Video模型发布,讨论涉及模型规模、许可、下载、运行需求、微调工具、技术问题等多方面内容,总体氛围比较积极且充满技术探讨]
[关于QuantBench量化工具的讨论,涉及低质量量化、量化方法、项目计划、显存需求等话题,整体氛围积极且充满技术交流]
[帖子介绍了Huginn模型无需推理标记就能推理的特性,评论从不同角度展开讨论,涉及AGI、成本、技术概念、模型推理等多方面内容,整体氛围较为理性探讨]
[原帖分享自己构建的179行LLM框架并探讨简化的原因和功能,评论围绕框架的Python使用、对框架的态度、代码疑问等展开,氛围较为积极和谐。]
[微软发布用于多模态人工智能代理的Magma模型,引发关于其是否与机器人相关的推测,进而讨论到相关爱好成本变高,还围绕3D打印机展开多方面的技术讨论,氛围比较热烈且积极探索]
[原帖作者创建了新的结构化输出方法PSE,大家围绕PSE的性能、优势、与其他类似项目的比较、在不同场景的应用等进行讨论,整体氛围积极且充满探索性]
[围绕Qwen今晚将发布内容展开讨论,有对发布内容的期待、猜测、比较,也涉及开源闭源、时区等问题,同时夹杂着积极、消极等不同情感倾向。]
[该讨论围绕Claude 3.7 Sonnet和Claude Code展开,涉及等待相关产品、开源闭源争议、价格比较、成本等方面,有观点分享、疑问提出和使用体验交流,整体氛围较理性]
[原帖介绍QwQ - Max - Preview相关进展,评论者们对其开源表示兴奋、期待,存在对其功能、参数等方面的好奇,也有一些调侃及对发布时间的关注等,整体氛围积极活跃。]