模型与技术 新模型发布

DeepSeek发布第二个OSS包 - DeepEP

[关于DeepSeek 2nd OSS package - DeepEP - Expert parallel FP8 MOE kernels,有人概括其特性,也有人对其不支持消费级GPU表示遗憾,还有人指出特定GPU支持趋势以及制作相关网站引发身份质疑等情况]

 ·  · 
模型与技术 新模型发布

WAN视频模型发布

[WAN Video模型发布,讨论涉及模型规模、许可、下载、运行需求、微调工具、技术问题等多方面内容,总体氛围比较积极且充满技术探讨]

 ·  · 
模型与技术 其他

量化LLM/VLM的简易工具QuantBench

[关于QuantBench量化工具的讨论,涉及低质量量化、量化方法、项目计划、显存需求等话题,整体氛围积极且充满技术交流]

 ·  · 
模型与技术 新模型发布

无需单个标记的推理:Huginn新模型

[帖子介绍了Huginn模型无需推理标记就能推理的特性,评论从不同角度展开讨论,涉及AGI、成本、技术概念、模型推理等多方面内容,整体氛围较为理性探讨]

 ·  · 
模型与技术 技术讨论

仅用179行构建大语言模型框架——为何其他框架如此臃肿?

[原帖分享自己构建的179行LLM框架并探讨简化的原因和功能,评论围绕框架的Python使用、对框架的态度、代码疑问等展开,氛围较为积极和谐。]

 ·  · 
模型与技术 新模型发布

微软的Magma多模态基础模型登Hugging Face,MIT许可

[微软发布用于多模态人工智能代理的Magma模型,引发关于其是否与机器人相关的推测,进而讨论到相关爱好成本变高,还围绕3D打印机展开多方面的技术讨论,氛围比较热烈且积极探索]

 ·  · 
模型与技术 其他

新创建的结构化输出方法效果佳

[原帖作者创建了新的结构化输出方法PSE,大家围绕PSE的性能、优势、与其他类似项目的比较、在不同场景的应用等进行讨论,整体氛围积极且充满探索性]

 ·  · 
模型与技术 新模型发布

今晚Qwen将发布新品

[围绕Qwen今晚将发布内容展开讨论,有对发布内容的期待、猜测、比较,也涉及开源闭源、时区等问题,同时夹杂着积极、消极等不同情感倾向。]

 ·  · 
模型与技术 新模型发布

Claude 3.7 Sonnet与Claude Code

[该讨论围绕Claude 3.7 Sonnet和Claude Code展开,涉及等待相关产品、开源闭源争议、价格比较、成本等方面,有观点分享、疑问提出和使用体验交流,整体氛围较理性]

 ·  · 
模型与技术 新模型发布

QwQ - Max - 即将预览

[原帖介绍QwQ - Max - Preview相关进展,评论者们对其开源表示兴奋、期待,存在对其功能、参数等方面的好奇,也有一些调侃及对发布时间的关注等,整体氛围积极活跃。]

 ·  ·