模型与技术 其他

谷歌开源Gemma 3已久

[关于谷歌开源的Gemma 3,大家从模型的技术特性、对它的期望、与其他模型对比等方面展开讨论,整体氛围比较积极探索]

 ·  · 
模型与技术 新模型发布

Recursal发布两款新线性模型:QRWKV6 - 32B与Finch - MoE - 37B - A11B

[新模型QRWKV6 - 32B和Finch - MoE - 37B - A11B发布,大家围绕模型的各个方面展开讨论,包括对模型的认可期待、运行相关、性能比较等,整体氛围积极且充满探索欲]

 ·  · 
模型与技术 技术讨论

LLM是否为输入一串标记且输出单个标记的函数?

[原帖对LLM相关概念提问,评论者从LLM的原理、输出、训练、与提示模板关系等方面进行讨论,整体氛围理性且充满技术探讨]

 ·  · 
模型与技术 技术讨论

Qwen-2.5 Coder 7B可用于QwQ-32B的推测性解码

[原帖探讨Qwen - 2.5 Coder 7B用于QwQ - 32B的推测解码,评论中有人质疑、有人提供替代方案、有人分享使用经验,还涉及模型选择、性能、风格等多方面讨论]

 ·  · 
模型与技术 性能对比

Whisper.cpp是否仍是语音转文本(STT)的王者

[原帖询问Whisper.cpp是否仍是语音转文本(STT)领域的王者并寻求其他优秀STT,评论从Whisper不同版本性能、其他STT推荐、STT是否已解决等方面展开讨论,氛围较为理性探讨]

 ·  · 
模型与技术 性能对比

8GB VRAM下难寻比gemma - 2 - 9b - it - SimPO更好的大语言模型

[原帖作者找不到能在8GB显存下合理运行且比gemma - 2 - 9b更好的LLM,评论者们纷纷给出自己的推荐、看法、经验等,整体氛围较为积极且充满交流]

 ·  · 
模型与技术 性能对比

回顾ChatGPT 3.5:今不如昔

[围绕ChatGPT 3.5展开讨论,对比现在的本地模型,涉及多语言能力、通用知识等方面,还讨论了模型的规模、在创意写作中的表现、技术潜力利用等话题,观点多样且存在争议。]

 ·  · 
模型与技术 训练与微调技术

Llama 3.3 (70B)微调 - 现支持90K上下文长度且适配<41GB显存

[原帖介绍Llama 3.3 (70B)的微调成果,评论者大多表达认可与惊叹,同时围绕Unsloth技术、硬件需求、模型训练等多方面提出疑问并展开技术探讨]

 ·  · 
模型与技术 性能对比

Hugging Face发布Text Generation Inference TGI v3.0,长提示处理速度比vLLM快13倍

[Hugging Face发布Text Generation Inference TGI v3.0后,大家讨论其性能优势、与其他产品比较、技术相关疑问、使用场景等,整体氛围积极但也有质疑和负面体验]

 ·  · 
模型与技术 新模型发布

DeepSeek V2.5 - 1210:DeepSeek V2.5最终版本

围绕DeepSeek - V2.5 - 1210作为DeepSeek V2.5系列的最终版本,大家讨论了它的功能、性能、运行要求、与其他模型的比较等多方面内容,氛围较为客观且积极探索。

 ·  ·