原贴链接

有哪些大型期待已久的发布吗?来自Mistral、Qwen、Yi或其他大型参与者? 由于目前L3.1的微调似乎已中断,直到这个问题得到解决https://x.com/danielhanchen/status/1823366649074094225

讨论总结

本次讨论主要围绕即将发布的AI模型,涵盖了技术动态、公司未来、模型性能等多个方面。讨论中提到了Gemini 2、OpenAI Strawberry的传闻,以及Facebook计划在九月发布多模态模型等技术动态。同时,也有对Cohere公司未来发展的担忧,包括可能的收购或公司生存问题,以及对Yi系列模型更新停滞的关注。此外,讨论还涉及了模型性能评价、lmsys平台的使用、Google的Gemini模型测试等话题。总体上,讨论氛围充满期待与关注,用户对新模型的发布和技术进步表现出浓厚的兴趣。

主要观点

  1. 👍 Cohere可能不会很快发布新的30B规模模型
    • 支持理由:评论者担心Cohere可能被收购或面临生存问题。
    • 反对声音:有回复指出Cohere最近获得了大量的资金支持,并且仍然拥有适合微调的优秀模型。
  2. 🔥 即将发布的新模型,如Gemini 2、OpenAI Strawberry
    • 正方观点:这些信息对于关注技术动态的用户来说具有较高的参考价值。
    • 反方观点:暂无明确反对观点,但存在对传闻真实性的质疑。
  3. 💡 对即将到来的模型发布表示兴趣,特别是关注是否有新的 Yi 模型发布
    • 解释:评论中提到,自 Yi-1.5 以来,Yi 系列似乎没有进行任何升级,显示出对技术更新停滞的关注。
  4. 🚀 Google正在测试新的Gemini模型
    • 解释:这些模型可能在Chatbot Arena进行测试,评论者对新模型的发布表示关注。
  5. 🌟 对 gemma2 模型的质量与参数表示赞赏
    • 解释:对权重修剪技术、MoE(Mixture of Experts)技术感兴趣,认为这些技术的结合能在低性能设备上实现高效运行。

金句与有趣评论

  1. “😂 Downtown-Case-1755:Cohere’s definitely not releasing another 30B-ish model soon. Nope.”
    • 亮点:直接表达了对Cohere未来模型发布的悲观态度。
  2. “🤔 Warm-Enthusiasm-9534:Google’s testing two new Gemini models on Chatbot Arena.”
    • 亮点:透露了Google新模型的测试信息,引发用户关注。
  3. “👀 estrafire:I’m also interested in further integration of the latest discoveries, like a gemma2 (my current favorite regarding quality/params, because of the knowledge distillation) + weight prunning + MoE and maybe an instruct mode, seems like something amazing to run locally even on potatoes.”
    • 亮点:详细描述了对新技术整合的兴趣,以及对低性能设备上高效运行的期待。

情感分析

讨论的总体情感倾向为积极关注,用户对新模型的发布和技术进步表现出浓厚的兴趣。主要分歧点在于对某些公司未来发展的担忧,如Cohere可能的收购或生存问题,以及对某些模型更新停滞的关注。这些分歧可能源于对技术动态的不同理解和预期。

趋势与预测

  • 新兴话题:可能引发后续讨论的新观点包括Gemini 2、OpenAI Strawberry的传闻,以及Facebook计划在九月发布多模态模型等。
  • 潜在影响:对相关领域或社会的潜在影响包括技术进步带来的效率提升、模型性能的改进,以及对低性能设备上高效运行的探索。

详细内容:

标题:即将到来的模型?Reddit 上的热烈讨论

在 Reddit 上,一则关于“Upcoming Models?”的帖子引发了众多关注。该帖询问是否有值得期待的大型模型发布,比如来自 Mistral、Qwen、Yi 等公司的,还提到 L3.1 的微调似乎存在问题,并附上了相关链接https://x.com/danielhanchen/status/1823366649074094225。此帖获得了大量的点赞和评论,引发了广泛的讨论。

讨论的焦点主要集中在以下几个方面: 有人表示 Cohere 近期肯定不会发布约 300 亿参数规模的模型,也不会发布 bitnet 模型,这让人感到失落。 有用户希望这些公司能有所动作,担心它们会倒闭、被收购或者收购后不能有好的归宿。 也有人提到刚刚获得 5 亿美元融资,并且拥有适合微调的优质模型。 还有用户列举了一些传言,如 Gemini 2 传言、OpenAI Strawberry 传言、Facebook 将于九月发布多模态模型等。 另外,有人指出 lmsys 有一个新的匿名模型“toto-mid”,但也有人表示前两个相关模型据说不太好。 有人称 Google 正在 Chatbot Arena 上测试两个新的 Gemini 模型。 还有用户对模型的最新集成感兴趣,比如 gemma2 结合知识蒸馏、权重修剪、MoE 以及指令模式等,认为这在本地运行会很棒。 关于 L3.1 的微调问题,有人认为微调没有问题,可以像 Hermes 团队那样在不同的聊天模板上训练。但也有人表示自己尝试的微调很快就失去了所有上下文并开始胡言乱语,认为所见到的 L3 微调在可用性方面很糟糕。 有用户尝试使用 axolotl 和 qlora 进行微调,但遇到了很多兼容性问题。

在这场讨论中,大家对于新模型的发布充满期待,同时对现有模型的微调情况存在不同看法。这也反映出人们对于模型技术发展的密切关注和期待其不断完善的愿望。