模型与技术 新模型发布

Apache TTS: Orpheus 3B 0.1 FT发布

[围绕Apache TTS的Orpheus 3B 0.1 FT模型展开多方面讨论,包括模型本身的特性、应用场景、资源需求、许可证变更等,整体氛围积极且充满探索性]

 ·  · 
模型与技术 训练与微调技术

Gemma 3 GRPO现可用于Unsloth且已修复漏洞

[原帖介绍Gemma 3在Unsloth中的情况及相关修复,评论者们在认可成果的基础上提出功能需求、对使用中遇到的问题提问并进行技术探讨]

 ·  · 
模型与技术 新模型发布

Stability AI发布新多视图3D模型

[关于Stability AI新的多视图3D模型,大家讨论了其品牌受损情况、模型本身存在的问题(如腿部和手指问题)、可能的军事应用、一些有趣现象(如模型有5条腿),讨论氛围有肯定也有否定。]

 ·  · 
模型与技术 新模型发布

开源模型在将PyTorch转译为Triton方面性能超越DeepSeek - R1和OpenAI o1

[原帖分享一个将PyTorch转换为Triton且性能超其他模型的开源模型,评论主要围绕对模型的疑问、性能探讨、模型类型及对其未来的期望等内容展开,整体氛围较积极且充满好奇]

 ·  · 
模型与技术 新模型发布

Meta发布新模型:VGGT(视觉几何基础Transformer)

[Meta发布VGGT模型后,大家从模型功能、与旧技术对比、名称由来、权重发布等方面展开讨论,氛围较理性且略带趣味]

 ·  · 
模型与技术 性能对比

Nemotron - Super - 49B或成创意写作利器(24GB显存)

[原帖讨论Nemotron - Super - 49B在创意写作方面的表现,评论涉及模型安全调整、与其他模型对比、量化等级、技术尝试等内容,氛围较为理性探讨]

 ·  · 
模型与技术 新模型发布

构建开源混合推理大语言模型

[原帖作者构建开源混合推理LLM模型Apollo并分享相关资源,评论者围绕模型构建、基准测试、推理机制提问、发表观点、表达意向,有少量调侃质疑和不适当内容]

 ·  · 
模型与技术 性能对比

LLMs为何不擅长编写/理解C/C++

[围绕LLMs在C/C++代码处理上表现不佳这一主题展开讨论,分析了可能的原因、不同LLMs的表现差异、与其他语言的对比等,评论有赞同也有反对,还延伸到相关话题]

 ·  · 
模型与技术 新模型发布

寻求QwQ - 32B的优质草稿模型

[原帖寻求QwQ - 32B的草稿模型(小于1.5B),评论者们分享了可能的模型、性能情况、使用建议和不同平台的表现等内容]

 ·  · 
模型与技术 性能对比

近期激动人心的发布后,确信基准测试多不可信

[在经历两周激动的发布后,原帖认为基准测试大多无意义,评论者围绕基准测试的有效性、模型的性能和优化、不同类型基准测试的问题以及模型在实际应用中的表现等展开讨论,整体氛围对基准测试多持怀疑态度]

 ·  ·