模型与技术 模型更新

推出Muchi,Moshi的微调版本

[原帖介绍Muchi(Moshi的微调版本),评论围绕Moshi的问题、Muchi的性能、模型训练细节、名字问题等展开,氛围比较多元既有兴趣也有批评]

 ·  · 
硬件与部署 性能对比

RTX 3060与RTX 3090在不同规模大语言模型上的性能对比

[原帖对比RTX 3060和RTX 3090在不同LLM模型上的性能,评论者们有的表示认可感谢,有的提出新的比较想法、疑问或者补充影响性能的因素等,整体氛围较为积极]

 ·  · 
模型与技术 性能对比

Gemma 3模型测试:1B、4B、12B和27B版本对比

[原帖对Gemma 3的1B、4B、12B和27B版本进行测试,评论主要围绕模型用途、性能、兼容性等方面展开,有不同观点和使用体验,整体讨论氛围较为理性。]

 ·  · 
应用与工具 特定领域应用

利用OCR与大语言模型进行发票提取

[原帖主开发学术项目中的发票信息提取移动应用遇到多种限制,众多评论者纷纷给出不同的建议与经验分享,整体氛围积极互助。]

 ·  · 
模型与技术 性能对比

70B(量化)是否是复杂角色扮演的关键因素

[原帖探讨70B(量化)是否为复杂角色扮演的关键因素,评论者从不同角度比较70B与其他规模模型在角色扮演、推理速度、整合上下文等方面的表现,有认同也有反对,整体讨论较专业且理性。]

 ·  · 
模型与技术 技术讨论

视觉大语言模型如何工作?模型实际看到什么?

[原帖询问视觉语言模型处理图像时到底能“看到”什么,评论从不同角度解释视觉LLM处理图像的原理、图像在被模型处理时的变化以及LLM缺乏空间意识的原因,整体氛围较为专业理性]

 ·  · 
硬件与部署 性能测试

M3 Ultra上运行超70B参数大语言模型的尝试

[原帖询问是否有人在M3 Ultra上测试大于70B的LLMs,评论分享测试结果、性能比较、提出改进建议、表达对测试结果的看法,还涉及技术突破、不同设备使用情况、新模型测试可能以及相关推荐等内容,整体氛围较为积极的技术讨论]

 ·  · 
硬件与部署 性能对比

RTX PRO 6000 X Blackwell 96GB游戏/虚拟制作性能泄露

[围绕RTX PRO 6000 X Blackwell 96GB的性能泄露展开讨论,涉及价格、性能、性价比、发布顺序等多方面,用户看法不一,有质疑、不满也有正面评价]

 ·  · 
模型与技术 性能对比

2025年150亿参数以下最佳模型

[原帖寻求15B参数以下适用于日常且能处理多种用例(特别是生成医疗报告)的最佳模型,评论者们推荐了多个模型如Qwen2.5 - 14B、Gemma 3 12B等,并分享了各自的使用体验、对模型功能的评价以及一些硬件相关的建议,整体氛围比较和谐。]

 ·  · 
模型与技术 新模型发布

下一代AI模型发布预估

[原帖询问下一代开放模型的情况、期望功能和发布时间,评论围绕具体的模型推荐、发布时间预测、对特定模型的评价、对某些技术和人物的期待与不信任等内容展开,整体氛围较为理性且积极分享信息。]

 ·  ·