模型与技术 新模型发布

中国AI初创公司StepFun新万亿参数MOE模型在Livebench排名前列

[围绕中国AI初创公司StepFun新的1万亿参数MOE模型,讨论其性能、参数合理性、与其他模型比较等多方面内容,整体氛围褒贬不一]

 ·  · 
模型与技术 新模型发布

思维链模型是这样工作的吗?

[原帖展示链思维模型对一个谜语的解答过程,评论围绕模型思考方式、谜语答案合理性、是否存在过度思考等展开讨论,氛围热烈且争议较多。]

 ·  · 
模型与技术 新模型发布

Nvidia发布LLaMA - Mesh权重,推理代码可用

[Nvidia的LLaMA - Mesh权重在HF发布且有推理代码可用这一事件引发讨论,包括其使用方法、功能局限、应用场景、实用性等方面,讨论氛围较为多元,有期待、疑惑也有批评]

 ·  · 
模型与技术 新模型发布

txtai 8.0发布:极简主义者的代理框架

[围绕txtai 8.0发布,主要介绍其新特性如代理框架,大家在祝贺发布的同时提出各种问题包括对视觉模型支持、函数调用、代理规划、C++ API、状态管理、模型选择等方面,整体氛围积极且充满技术探讨]

 ·  · 
模型与技术 新模型发布

Mistral发布Pixtral - Large及Mistral - Large更新

[原帖介绍Mistral发布Pixtral - Large模型和Mistral - Large更新,评论从模型对比、改进与否、许可限制、基准测试等多方面展开讨论,氛围较为理性且关注技术细节]

 ·  · 
模型与技术 新模型发布

为何没有20 - 35B新模型来满足我的需求

[原帖抱怨没有新的20 - 35B模型来满足需求,评论围绕模型推荐、性能、量化、显存等多方面展开讨论,氛围较为多元,包含建议、调侃、不同观点等]

 ·  · 
模型与技术 新模型发布

11月18日Mistral Large 2411和Pixtral Large发布

[围绕Mistral Large 2411和Pixtral Large 11月18日发布展开讨论,涉及模型性能、许可证、技术问题、使用体验等多方面,整体氛围积极且充满探索性]

 ·  · 
模型与技术 新模型发布

Mistral - Large - Instruct - 2411模型在Hugging Face

[围绕Mistral - Large - Instruct - 2411展开多方面讨论,包括模型性能、量化转换、许可证、适用性等,大家各抒己见且有不同关注点。]

 ·  · 
模型与技术 新模型发布

有人在llama.cpp为Qwen2VL创建拉取请求

[有人在llama.cpp创建Qwen2VL支持的拉取请求,大家讨论拉取请求的状态、相关模型情况、可能的影响,有积极的期待,也涉及一些如拒绝原因等问题,整体氛围较积极]

 ·  · 
模型与技术 新模型发布

Qwen2.5 - Turbo将上下文长度扩展到100万 tokens

[围绕Qwen2.5 - Turbo展开讨论,涉及模型类型、权重开源、翻译能力、对不同国家API提供商的信任等多方面内容,讨论氛围积极与争议并存]

 ·  ·