模型与技术 新模型发布

Kiwi模型亮相lmsys arena

[关于lmsys arena上的“Kiwi”模型,大家从其与其他模型的相似性、性能、回答正确性等多方面进行讨论,整体氛围比较轻松,有赞同也有调侃。]

 ·  · 
模型与技术 新模型发布

国外公司发布Mistral、Qwen和DeepSeek模型

[围绕美国内外公司的人工智能模型展开讨论,涉及模型特点、商业策略、开源闭源、招聘规则等多方面,整体氛围热烈且观点多元]

 ·  · 
模型与技术 新模型发布

Kokoro TTS 1.0发布

[围绕Kokoro TTS 1.0展开讨论,涉及模型依赖项、运行性能、功能、许可、数据集等方面,情感倾向正负皆有,整体氛围较为理性探讨]

 ·  · 
模型与技术 新模型发布

Mistral Small 3:超越自身规模的性能——重新定义期待(感觉像70B模型!)

[关于Mistral Small 3这个模型,大家从不同方面进行评价,包括在不同任务中的表现、与其他模型对比等,有正面评价也有否定的声音,整体讨论氛围比较理性且多元]

 ·  · 
模型与技术 新模型发布

为教育目的从零训练100万参数的TinyStories模型

[原帖作者训练一个用于教育目的的100万参数tinystories模型,评论者们围绕模型表现、训练过程、后续优化等展开讨论,氛围比较积极,有交流也有质疑。]

 ·  · 
模型与技术 新模型发布

DeepSeek-R1错误信息失控

[围绕DeepSeek - R1在谷歌云博客等平台相关信息展开讨论,涉及错误信息、模型参数、创作来源等方面,观点多样且存在争议,整体氛围较热烈]

 ·  · 
模型与技术 新模型发布

美国人也能对模型进行提炼

[原帖作者计划众包数据改进语音模型,引发关于模型训练各方面的讨论,包括开源与否、数据来源、训练配方等,整体氛围较积极且充满探索性]

 ·  · 
模型与技术 新模型发布

o3 - mini成为当前最优编码模型

[围绕o3 - mini编码模型展开多方面讨论,包括与其他模型性能比较、在不同任务中的表现、存在的限制等,大家观点各异,有认可也有质疑,讨论氛围热烈]

 ·  · 
模型与技术 新模型发布

过去一年发展远超预期

[原帖讲述过去一年语言模型领域开放权重模型发展远超预期,与图像生成模型领域形成对比,评论围绕AI相关多个话题展开,包括模型发展、技术限制、商业策略等,有赞同也有争议,整体氛围积极且充满探索性]

 ·  · 
模型与技术 新模型发布

llama.cpp现支持工具调用(兼容OpenAI)

[llama.cpp支持工具调用(与OpenAI兼容)这一事件引发多方面讨论,包括技术疑问、成果肯定、功能需求及不同模型相关情况等,整体氛围积极且富有建设性]

 ·  ·