模型与技术 模型更新

Llama 3b:持续在160B高质量标记上训练可使数学能力提高2 - 3倍

[关于Llama 3b通过特定训练提升数学能力这一说法,大家从数据来源、过拟合、是否牺牲其他指标等多方面进行讨论,既有怀疑也有支持的声音,同时也涉及一些机器学习相关概念的探讨,氛围较为理性]

 ·  · 
模型与技术 性能对比

Hugging Face对Llama 3.2 3B持续预训练在数学任务上提升2 - 3倍

[Hugging Face对Llama 3.2 3B预训练在数学任务上有提升,评论者围绕模型性能改进、预训练概念、指令遵循能力等方面提出疑问、质疑和希望改进之处,整体氛围充满探索性。]

 ·  · 
模型与技术 技术讨论

Qwen 2.5为何支持128k上下文长度但输出仅支持8k

[围绕Qwen 2.5支持128k上下文长度但输出最多8k的现象展开讨论,涉及模型连贯性、输出限制的原因、相关技术疑问等多方面内容,讨论氛围较为理性探讨]

 ·  · 
模型与技术 其他

LLM创意故事写作基准

[围绕LLM创意故事写作基准展开讨论,包括对AI评估有效性、模型表现(如Deepseek - V3的优缺点)、模型未出现、排名等的看法,氛围以质疑和分享观察结果为主]

 ·  · 
模型与技术 技术讨论

AI智能体作为有限状态机?

[关于AI代理是否可作为有限状态机展开讨论,涉及相关技术对比、工具推荐、对OpenAI的质疑、AI领域欺诈现象以及AI代理发展等多方面内容,氛围较为理性探讨]

 ·  · 
模型与技术 新模型发布

Meta AI推出EWE增强长文本事实性

[Meta AI推出EWE技术,大家围绕其与其他技术的关联、对Llama 4的影响、是否被过度炒作等展开讨论,整体氛围积极中带有质疑]

 ·  · 
模型与技术 新模型发布

Dolphin 3.0发布(整合Llama 3.1、3.2与Qwen 2.5)

[Dolphin 3.0发布引发了诸多讨论,包括对其改进之处、与其他模型对比、是否有新功能等方面的关注,整体氛围积极且充满好奇]

 ·  · 
模型与技术 新模型发布

UwU 7B Instruct模型相关

[围绕UwU 7B Instruct模型,大家分享资源、评价模型、探讨模型相关的训练、搭配、基准测试等技术问题,同时有用户表达需求、不满和期待,整体氛围较为积极且多元]

 ·  · 
模型与技术 性能对比

深擎V3在llama.cpp中的令牌生成性能与提示长度的关系

[帖子探讨DeepSeek V3在llama.cpp中的token生成性能与提示长度关系,评论从不同角度如硬件设置、缓存、采样器等进行技术讨论,整体氛围专注于技术交流,有分享、疑问和少量争议。]

 ·  · 
模型与技术 新模型发布

介绍kokoro - onnx语音合成系统

[关于kokoro - onnx TTS的讨论,涉及功能改进、运行速度、安装等方面的需求和看法,总体氛围积极且充满建设性]

 ·  ·