模型与技术 新模型发布

Pleias发布首个完全基于公开数据训练的模型,可与Llama 3B和Qwen 3B竞争

[围绕Pleias发布的模型,讨论涉及模型评估、数据版权、小模型用途等多方面,有对新特性的好奇与疑惑,也有对模型优势的赞同,整体氛围积极且讨论内容丰富]

 ·  · 
模型与技术 新模型发布

武士(SAMURAI)与Meta的SAM 2:视觉追踪新时代?

[关于SAMURAI与Meta"s SAM 2在视觉跟踪方面的讨论,涉及模型整合困难、应用场景、实际效果等多方面,大家观点不一,氛围较理性探讨]

 ·  · 
模型与技术 新模型发布

世界最小视觉语言模型moondream 0.5B

[该讨论围绕moondream 0.5B这个世界上最小的视觉语言模型展开,包括其特点、应用场景、运行方式等,整体氛围比较技术向且充满探索性]

 ·  · 
模型与技术 性能对比

对Qwen2.5 Coder 32b是否仍满意

[该讨论围绕Qwen2.5 Coder 32b展开,涉及与其他模型的比较、性能、价格、使用体验等方面,总体氛围比较理性,大家各抒己见]

 ·  · 
模型与技术 新模型发布

为何难以找到适配消费级GPU的大语言模型规模

[原帖探讨在消费级GPU上难以找到合适LLM规模的问题,评论中有认为现有模型已足够的,有指出其他影响因素如硬件、企业目的的,还有对不同规模模型实用性的讨论,整体氛围理性探讨且存在多种观点碰撞]

 ·  · 
模型与技术 性能对比

Mistral Large的推测性解码?

[该讨论围绕Mistral Large的推测解码展开,主要涉及草稿模型的使用、性能测试、速度提升、资源分配等方面,大家分享各自的经验和观点,整体氛围比较理性和平和。]

 ·  · 
模型与技术 性能对比

25个最先进大语言模型的MMLU - Pro CS基准测试对比

[帖子分享了25个LLM通过59次MMLU - Pro CS基准测试的结果,评论围绕测试展开,包括模型表现、技术原理、个人喜好等,整体氛围积极且充满探讨性]

 ·  · 
模型与技术 技术讨论

4位量化可能破坏模型 - 动态量化10%FP16 90%4位

[原帖介绍Unsloth中视觉微调支持时发现4bit量化可能破坏模型,评论围绕此展开,包括量化对不同模型影响、Unsloth功能等,有认可也有提问]

 ·  · 
模型与技术 新模型发布

FishSpeech v1.5:多语言零样本即时语音克隆,仅5亿参数且低延迟排名TTS - Arena第二

[围绕FishSpeech v1.5展开讨论,涉及商业性、功能、排名等方面,氛围比较平和,有肯定也有质疑]

 ·  · 
模型与技术 性能对比

12b - 22b规模下最佳NSFW角色扮演模型

[原帖询问12b - 22b、16G vram的最佳NSFW RP模型,评论者们纷纷推荐自己认为不错的模型,并对模型的性能、优缺点等进行比较,其中也夹杂着个别负面评价]

 ·  ·