模型与技术 训练与微调技术

混元视频:大型视频生成模型训练的系统框架

[围绕HunyuanVideo这个大型视频生成模型训练框架展开讨论,涉及从资源分享到技术要求等多方面内容,氛围较积极且充满好奇]

 ·  · 
模型与技术 性能对比

QwQ 32b在Simple bench上的测试

[围绕QwQ 32b的测试结果展开讨论,包括对结果的不同评价、推理过程相关以及对其作为alpha模型的看法等,整体氛围较为积极且充满探索性]

 ·  · 
模型与技术 其他

超小模型有何用途?

[原帖询问2 - 3b参数的小模型有何用途,评论者们提出了各种用途,包括简单任务、文本分类、自动补全等,整体氛围积极且充满干货]

 ·  · 
模型与技术 技术讨论

Llama 70b多步工具实现

[帖子探讨在Llama 70b模型中多步工具调用的实现,评论者分享了如Athena - v2 - 72b - agent等可能的方案、手动操作的方法和在调用工具前让模型思考的成果等内容,整体讨论热度较低。]

 ·  · 
模型与技术 其他

Mistral许久未发布新内容

原帖提到Mistral很久未发布新东西引发讨论,有反驳者指出近期发布成果,也有表达期待、对现有模型看法、探讨公司发展等多种观点,氛围积极热烈。

 ·  · 
模型与技术 新模型发布

Nous DisTrO更新,宣布新15b模型及DeMo论文

[关于Nous DisTrO的更新、DeMo论文和新15b模型,有人分享资源,有人阐述相关概念,多数人表达正面情感,也有人提出疑问和好奇之处]

 ·  · 
模型与技术 性能对比

当前最喜爱的模型

[原帖询问最喜欢的模型,评论者们分享了各自喜欢的模型,包括使用场景、性能、优缺点等,整体氛围积极,大家交流不同模型的使用体验]

 ·  · 
模型与技术 性能对比

ONNX为何在大语言模型领域未能成功

[讨论ONNX在LLM世界未成功的原因,包括技术局限、使用体验差、与其他技术对比的劣势等,总体氛围比较理性地分析问题]

 ·  · 
模型与技术 性能对比

开源才是正途

[原帖对不同人工智能进行推理问题测试并分享结果,评论围绕这些结果展开,有对开源模型的看好、对特定模型的期待、对推理问题的好奇等,整体氛围积极且充满探索性]

 ·  · 
模型与技术 新模型发布

尝试制作可在云端免费使用的无审查版Llama 405b模型

[关于制作可在云端免费使用的无审查版Llama 405b模型的帖子引发多种讨论,包括对模型本身的疑问、肯定、质疑,以及对免费使用背后情况的关注等,氛围比较多元]

 ·  ·