今天发布两个新模型,在我飞往Defcon之前。
Tess-3在Mistral-Large-2-123B(通用LLM):https://huggingface.co/migtissera/Tess-3-Mistral-Large-2-123B
Trinity-2在Codestral(代码LLM): https://huggingface.co/migtissera/Trinity-2-Codestral-22B
两者均未经过审查。Codestral在HumanEval中得分为78。
讨论总结
Reddit用户对新发布的Tess-3和Trinity-2模型表现出浓厚的兴趣,讨论主要围绕模型的性能、无审查特性及使用体验展开。用户们对新模型的发布速度表示惊讶,并对技术更新速度表示赞叹。此外,用户们还讨论了模型的微调目标和训练目的,以及这些微调对基础模型的影响。一些用户分享了他们的测试结果,包括请求模型生成包含暴力和不当内容的文本,以此来评估模型的无审查程度。总体上,讨论反映了用户对新模型的兴趣和初步的使用体验,以及对模型性能和无审查特性的关注。
主要观点
- 👍 对新模型发布速度的惊讶
- 支持理由:用户对新模型的发布速度表示惊讶,认为技术更新速度快。
- 反对声音:无
- 🔥 对技术更新速度的赞叹
- 正方观点:用户对技术更新速度表示赞叹,认为这是一个积极的发展。
- 反方观点:无
- 💡 微调目标和训练目的
- 解释:用户讨论了Tess-3和Trinity-2的微调目标和训练目的,以及这些微调对基础模型的影响。
- 💡 无审查特性
- 解释:用户讨论了模型的无审查特性,特别是关于它们在处理敏感内容时的表现。
- 💡 模型测试和性能优化
- 解释:用户分享了他们的测试结果,并讨论了模型的性能优化。
金句与有趣评论
- “😂 Holy shit, that was fast.”
- 亮点:表达了对新模型发布速度的惊讶。
- “🤔 I’m taking this codestral for a spin.”
- 亮点:表达了对新模型的兴趣和尝试意愿。
- “👀 Can someone tell me what was the target for this finetune? What was the goal of training?”
- 亮点:提出了对微调目标和训练目的的疑问。
情感分析
讨论的总体情感倾向是积极的,用户对新模型的发布表示惊讶和赞叹,并对技术更新速度表示赞赏。主要的分歧点在于模型的无审查特性和性能优化,用户们对这些方面持有不同的看法。可能的原因是用户对模型的期望和使用场景不同,导致了对模型特性的不同评价。
趋势与预测
- 新兴话题:模型的无审查特性和性能优化可能会引发后续的深入讨论。
- 潜在影响:新模型的发布可能会对相关技术领域产生积极影响,特别是在模型性能和无审查特性方面。
感谢您的耐心阅读!来选个表情,或者留个评论吧!