模型与技术 新模型发布

Meta上月发布低比特LLM量化论文似被忽视

[围绕Meta发布的ParetoQ: Scaling Laws in Extremely Low - bit LLM Quantization论文展开多方面讨论,包括技术优势、性能比较、应用场景、对成果的怀疑与期待等,氛围理性且充满技术探讨氛围]

 ·  · 
模型与技术 性能对比

深度探索新基准分数

[围绕新DeepSeek基准分数展开多方面讨论,包括与其他产品对比、性能、版本命名等,还涉及到东西方科技发展及竞争相关话题,整体氛围热烈且多元]

 ·  · 
模型与技术 性能对比

DeepSeek V3-0324在代码创意基准测试中追平Sonnet 3.7

[原帖通过代码创意基准测试对比DeepSeek V3 - 0324和Sonnet3.7,评论围绕模型表现、程序大小、测试结果等展开,有观点分享、疑问提出和对不同模型特性的讨论,整体氛围积极探索]

 ·  · 
模型与技术 性能对比

深度探索v3与R1对比(首为v3)

[围绕New deepseek v3和R1展开讨论,包含模型比较、运行情况、性能、价格等多方面内容,有调侃幽默也有质疑期待,氛围较活跃多元]

 ·  · 
模型与技术 技术讨论

制作Transformer工作原理的图表与解释

[原帖关于transformers工作原理的图表和解释引发讨论,评论包含对原帖的肯定、相关技术原理探讨、资源分享以及输入输出关联的新观点等,整体氛围积极友好]

 ·  · 
行业与社区 其他

对大语言模型概念的困惑

[原帖对LLM概念感到困惑,因为其原本与文本相关,现在涵盖多种功能,评论者们从不同角度对LLM概念、其与其他模型关系以及功能拓展等进行解释、讨论,有赞同有反对,整体氛围理性探讨。]

 ·  · 
模型与技术 新模型发布

发布TeapotLLM:用于抗幻觉问答和文档提取的开源约8亿参数模型,完全在CPU上运行

[围绕TeapotLLM这一开源模型展开讨论,涉及模型的抗幻觉能力、性能、应用场景、试用体验等方面,有期待认可也有质疑失望,整体氛围积极且多元]

 ·  · 
模型与技术 模型更新

DeepSeek V3-0324较V3有显著提升,成为最佳非推理模型

[原帖指出DeepSeek V3 - 0324在Misguided Attention评估中提升显著成为最佳非推理模型,评论从不同角度进行讨论,包括模型解决问题能力、对其他模型的影响、性能改进背后的情况等,整体氛围以理性探讨为主]

 ·  · 
模型与技术 新模型发布

Deepseek V3-0324

[围绕Deepseek V3 - 0324展开讨论,涉及版本相关问题、与其他产品对比、测试结果、链接内容、使用环境等多方面内容,整体氛围比较理性和平和]

 ·  · 
模型与技术 新模型发布

Qwen2.5 - VL - 32B - Instruct发布

[围绕Qwen2.5 - VL - 32B - Instruct展开讨论,包括其适用场景、性能对比、运行相关问题、技术进展等,讨论氛围较为积极,大家对其充满期待但也指出一些存在的问题]

 ·  ·