模型与技术 新模型发布

Reka AI发布新开源21B模型Reka Flash 3

[Reka Flash 3这个新的开源21B模型引发讨论,涉及模型性能、与其他模型对比、在不同场景适用性、存在的问题以及许可证等方面,讨论氛围较为积极且多元]

 ·  · 
模型与技术 新模型发布

阿里巴巴推出R1 - Omni

[原帖关于阿里巴巴推出R1 - Omni,评论涉及对原帖作者的批评、用词不满、对产品与阿里巴巴关系的疑惑、对产品价值和技术的质疑、情感检测伦理问题等多方面讨论,整体氛围较复杂。]

 ·  · 
模型与技术 新模型发布

新型推理模型(Reka Flash 3 - 21B)

[关于新的Reka Flash 3 - 21B推理模型,大家从多方面进行讨论,包括与其他模型比较、试用情况、存在的技术问题等,整体氛围积极且充满探索性]

 ·  · 
模型与技术 新模型发布

DeepSeek - R2或将于下周一提前发布

[关于DeepSeek - R2可能提前发布的消息,多数评论对消息来源表示怀疑,也涉及到其发布对其他AI公司的竞争压力、发布周期是否合理等话题,整体氛围充满质疑]

 ·  · 
模型与技术 性能对比

Reka Flash 3运行特定提示效果出色

[关于Reka Flash 3模型,有人认为其表现不错但需更多测试,有人分享使用体验、提出新测试场景,也有人给出负面评价,总体氛围积极与消极观点并存]

 ·  · 
模型与技术 性能对比

7B推理模型在IOI上超越Claude - 3.7 Sonnet

[关于7B推理模型在IOI上优于Claude - 3.7 Sonnet这一说法引发讨论,有人质疑测试可靠性、标题党嫌疑,也有人关注模型在其他测试中的表现等]

 ·  · 
模型与技术 新模型发布

GemmaSutra Small 4B v1:回归且更强大的便携RP模型

[围绕Drummer"s Gemmasutra Small 4B v1展开讨论,多数评论给予积极评价,有对比其他模型展现其优势的,也有表达对Drummer的信任、对模型特性的疑惑以及对其他相关产品的期待等]

 ·  · 
模型与技术 性能对比

OpenAI o1模型与DeepSeek R1在ZebraLogic超大谜题性能上存在巨大差距

[关于OpenAI o1模型和DeepSeek R1在ZebraLogic X - Large谜题性能上的差距,大家从多个角度展开讨论,包括性能、成本、开源闭源等,有观点交锋,也有对基准测试本身的质疑]

 ·  · 
模型与技术 新模型发布

QwQ32B的LMstudio可用初稿模型

[原帖询问QwQ32B的可用草稿模型或生成匹配词汇工作流,评论主要围绕QwQ - 0.5B模型的使用情况、不同模型使用体验、遇到的问题及可能的解决方案,整体氛围积极探索]

 ·  · 
模型与技术 训练与微调技术

新手提问:微调模型容易吗?

[新手询问在MacBook上微调Qwen2.5模型是否容易,想要让模型更高效且用自己的数据(法语)训练,评论者们主要围绕微调的难易程度、数据准备、可行的框架和训练方式等方面给出观点,整体氛围比较积极地提供建议]

 ·  ·