模型与技术 技术讨论

不同大语言模型推理轨迹中的单词统计分析

[原帖分析不同LLMs推理轨迹单词统计,发现很多模型与R1有相似字统计,评论者们从模型训练、OpenAI策略、紫队攻防演练、对原帖工作态度等多方面展开讨论]

 ·  · 
模型与技术 新模型发布

20GB VRAM限制下,最适合Python开发的新模型

[在20GB VRAM限制下,关于辅助Python开发的最佳LLM模型的讨论,大家各抒己见推荐了不同模型并阐述了各自的理由,整体氛围积极探讨]

 ·  · 
模型与技术 新模型发布

TikZero:基于大语言模型从文本标题生成科学图表的新方法

[TikZero模型从文本描述生成科学图表,讨论了其性能、模型大小、存在的错误,以及与ChatGPT的比较、在科研绘图中的争议等多方面内容,整体氛围有赞同也有反对。]

 ·  · 
模型与技术 其他

Hugging Face与Unsloth发布Gemma 3的GRPO新指南

[帖子关于Hugging Face和Unsloth的GRPO与Gemma 3的指南,评论包括对Unsloth的疑问、对unsloth团队的认可、积极感谢以及一些技术相关的疑问探讨等内容,整体氛围积极]

 ·  · 
模型与技术 新模型发布

Gemma3 4B相关资源

[帖子围绕Amoral Gemma3 4B展开讨论,涉及模型在Ollama上的视觉功能故障、导入Ollama的操作、聊天功能比较、运行模型的VRAM需求以及一些知识分享等内容,整体氛围较为平和且偏技术交流]

 ·  · 
模型与技术 新模型发布

为何Whisper v3 turbo尚未被取代?

[原帖对Whisper v3 turbo未被取代提出疑问,评论围绕模型优势、开源情况、新模型发布、改进建议、不同模型比较等多方面展开,整体氛围比较理性和专业。]

 ·  · 
模型与技术 性能对比

Mistral Small 3.1与Mistral Small 3性能对比

[原帖发起关于Mistral Small 3.1和Mistral Small 3性能比较的讨论,评论者分享使用体验、测试结果、不同任务中的表现、存在的问题以及与其他模型的比较等,总体氛围较为理性客观]

 ·  · 
模型与技术 新模型发布

奥菲斯、芝麻的CSM - 1B和久泰的莫西入门

[原帖介绍了几种语音模型相关知识,评论者们有的表达感谢,有的针对特定应用场景讨论模型需求,还有人对新模型发布做出预测]

 ·  · 
模型与技术 新模型发布

谷歌Gemma 9B参数规模下有无更好模型

[原帖询问是否有比谷歌Gemma 9B在函数调用方面更好且适合特定硬件条件的开源模型,评论者们分享了各自在不同使用场景下的模型体验,推荐了不同的模型并阐述了优缺点。]

 ·  · 
模型与技术 新模型发布

Llama4或于下月推出,多模态、长上下文

[围绕Llama4可能下个月到来且具备多模态、长上下文等特性展开讨论,包含对其性能、竞争、创新、审查等多方面的期待、质疑与分析,整体氛围积极与消极观点并存]

 ·  ·