模型与技术 新模型发布

Ozone AI发布Chirp 3b模型

[围绕Chirp - 3b模型展开讨论,包括资源链接故障与恢复、对特定版本的请求、相关版本补充等,总体氛围平和]

 ·  · 
模型与技术 新模型发布

TIGER - Lab的MMLU - Pro基准测试中神秘RRD2.5 - 9B模型,谁构建的?

[原帖询问神秘的RRD2.5 - 9B模型是谁构建的,评论围绕模型查找无果、对其分数真实性的质疑、MMLU - Pro排行榜可信度、模型相关玩笑以及个人的模型使用体验等展开,整体氛围充满好奇与怀疑。]

 ·  · 
模型与技术 新模型发布

Mistral 24b:可解析且表现出色

[关于Mistral 24b的讨论,涵盖其在不同任务中的表现、与其他模型比较、运行速度、准确性等方面,总体氛围比较多元既有正面评价也有否定观点。]

 ·  · 
模型与技术 技术讨论

准确使用"多"字,避免滥用

[原帖呼吁不要滥用“multi”一词,评论围绕模型能力表述中的用词规范展开,有赞同也有反对,整体氛围争议较大]

 ·  · 
模型与技术 新模型发布

阿里国际数字商业集团推出Ovis2多模态大模型(1B - 34B)

[关于阿里巴巴国际数字商务集团的Ovis2多模态大语言模型,大家主要讨论其模型性能,如1B模型在OCR测试、识别能力方面的表现,还有模型的本地运行、转换、兼容性等问题,整体讨论热度参差不齐。]

 ·  · 
模型与技术 新模型发布

Kimi.ai发布Moonlight 3B/16B MoE模型及改进的Muon优化器

[关于Kimi.ai发布的Moonlight模型,大家从优化器、性能、模型比较等多方面进行讨论,整体氛围积极且充满探索性]

 ·  · 
模型与技术 其他

小型语言模型是否值得投入大量时间和金钱?

[关于在小型语言模型(LLMs)上花费大量时间和金钱是否值得的讨论,涉及小型LLMs的特性、适用场景、与大型LLMs的比较等多方面,整体氛围有争议且讨论深入]

 ·  · 
模型与技术 新模型发布

Perplexity发布无审查的DeepSeek R1 Llama 70B模型相关版本

[原帖分享Perplexity可能悄悄发布DeepSeek R1 Llama 70B无审查版本相关内容,评论涉及模型版本需求、量化意义、GGUFs标签错误、技术对比等多方面内容,讨论热度整体较低]

 ·  · 
模型与技术 其他

小型(1 - 3 - 8B)模型的应用场景有哪些?

[该讨论围绕小模型(1 - 3B、8 - 9B等)展开,探讨了其在各种任务中的使用场景、性能表现、与大模型的比较、成本效益等多方面内容,整体氛围积极且充满干货。]

 ·  · 
模型与技术 新模型发布

Qwen2.5 VL 7B指令GGUF版本与基准测试

[围绕Qwen2.5 VL在llama.cpp上的运行及相关问题展开讨论,包括llama - server支持、等待中的期待、对工作的感谢认可、提醒功能以及技术方面的询问等,整体氛围积极平和]

 ·  ·