模型与技术 性能对比

14B模型8位量化与27B模型4位量化性能对比

[原帖探讨14B @ 8Bit和27B @ 4Bit在特定约束下哪个模型更好,评论从模型性能、量化、任务适配等多方面给出看法、测试结果、建议等,整体氛围较为理性探讨]

 ·  · 
模型与技术 新模型发布

OpenAI发布GPT - 4.5和O1 Pro API,决策存疑

[围绕OpenAI发布GPT - 4.5和O1 Pro的API这一看起来奇怪的决定,大家从商业策略、定价、模型能力等多方面进行讨论,整体氛围疑惑与争议并存]

 ·  · 
模型与技术 性能对比

Gemma3微调与世界知识表现优于众多模型

[帖子探讨Gemma3在微调与世界知识方面的优异表现,评论者从多方面展开讨论,包括模型对比、性能评价、存在的问题等,整体氛围积极且充满探索性]

 ·  · 
模型与技术 新模型发布

Qwen2.5 - Omni即将到来?Huggingface Transformers PR 36752

[围绕Qwen2.5 - Omni模型的PR展开讨论,涉及模型功能、规模、发布等方面,大家普遍对其功能表示惊叹与期待,也存在对模型规模和发布相关的疑问,整体氛围积极且充满探索性]

 ·  · 
模型与技术 新模型发布

Fallen Gemma3不同版本:4B、12B、27B

[帖子提及Fallen Gemma3相关模型无积极性等内容,评论包括对模型的评价、性能比较、资源获取、对特定现象的疑问等,整体氛围比较多元,有正面评价也有质疑]

 ·  · 
模型与技术 新模型发布

开源实时语音模型MoshiVis可描述图像

[围绕MoshiVis这个开源实时语音模型,有资源分享、对其表现的调侃、对研究和微调的兴趣、对运行和功能独特性的疑问以及与其他模型的比较等多种观点的讨论]

 ·  · 
模型与技术 性能对比

15亿参数在o1 - preview数学基准测试中有新发现

[围绕1.5B surprises o1 - preview数学基准的新发现展开讨论,涉及小模型发展、模型比较、计算器技术等话题,观点多样且存在一定争议,氛围活跃]

 ·  · 
模型与技术 新模型发布

想象完全合规的gemma3 vision模型

[原帖围绕gemma3 vision展开讨论,评论涉及数据刮取、数据集获取、Gemma - 3的性能、审查机制等多方面内容,整体氛围比较平和]

 ·  · 
模型与技术 新模型发布

空间理解专用大型语言模型SpatialLM

[围绕SpatialLM这一专为空间理解设计的大型语言模型展开讨论,涉及模型功能、原理、输入输出等多方面,有惊叹赞赏也有疑惑质疑,整体氛围积极且充满探索性]

 ·  · 
模型与技术 新模型发布

Qwen 3即将到来!

[围绕Qwen 3即将到来这一事件,从技术参数、性能表现、模型大小、应用场景等多方面展开讨论,整体氛围积极且充满期待,但也存在少量消极看法。]

 ·  ·