模型与技术 性能对比

用Mistral Small 24B制作太阳系动画,探究小模型实现类似效果的条件

[该讨论主要围绕着不同模型相关话题展开,包括本地LLaMA在Steam Deck上的运行、Deepseek版本、模型的性能测试、对成果的称赞、较小模型制作动画等内容,整体氛围积极且充满技术探讨。]

 ·  · 
模型与技术 新模型发布

Drummer"s Anubis Pro 105B v1:经过持续训练的升级版L3.3 70B

[该帖主要围绕Drummer"s Anubis Pro 105B v1展开,涉及模型升频原理、资源分享、模型相关的许可证与命名等话题,同时还有软件开发人员求职、对课程不满等其他内容的讨论,氛围比较多元]

 ·  · 
模型与技术 新模型发布

新的(邪恶)思维模型: Skynet - 3B

[围绕新模型Art - Skynet - 3B展开讨论,涉及模型能力、许可协议、目标设定等多方面,情感倾向多样,既有肯定也有质疑]

 ·  · 
模型与技术 模型更新

LLaMA 3.1微调用于多选互动小说

[关于LLaMA 3.1 - 8b微调版本用于多选项互动小说的项目发布,作者介绍项目情况并解答疑问,评论者有认可、提问、建议等多种反应。]

 ·  · 
模型与技术 技术讨论

用原型MLX - GRPO训练器使Phi - 14b成为(初级)推理器

[原帖作者分享将Phi - 14b制为原始推理器的成果及实验相关情况,评论围绕实验可复现性、成果意义、技术疑问等展开,整体氛围积极且富有探索性]

 ·  · 
模型与技术 新模型发布

Kiwi模型亮相lmsys arena

[关于lmsys arena上的“Kiwi”模型,大家从其与其他模型的相似性、性能、回答正确性等多方面进行讨论,整体氛围比较轻松,有赞同也有调侃。]

 ·  · 
模型与技术 性能对比

O3 - mini - high的LiveBench编码分数疑云

[原帖对O3 - mini - high的LiveBench编码分数存疑,评论从编码能力、模型表现、与其他模型关系等多方面进行讨论,有赞同有质疑,整体氛围理性且多元]

 ·  · 
模型与技术 技术讨论

用户LLM记忆的最佳存储方式

[一位AI工程师寻求存储LLM用户记忆的高效方法,评论者们提出了多种方案,包括不同的工具、技术和算法,讨论热度有高有低,整体氛围积极且富有建设性]

 ·  · 
模型与技术 技术讨论

使用一万个GPU训练模型的工作原理

[原帖询问10000个GPU训练模型的运作方式,评论主要从不同角度解答,包括推荐教程、介绍训练拆分方式、提供相关资源等,整体氛围积极且具有技术探讨性]

 ·  · 
模型与技术 技术讨论

并非所有大语言模型都能解决此问题

[关于只有特定的大型语言模型(LLM)才能解决的算式问题,大家分享了不同模型的测试情况、解题思路、遇到的问题,整体氛围较为平淡,主要在交流各自的尝试结果。]

 ·  ·