原贴链接

我们训练了一个最先进的多模态大型语言模型(LLM),深入了解后却发现它只支持文本和视觉,这只是两种模态,实际上是双模态的大型语言模型。我们的模型在多语言应用中有显著提升……该模型支持英文和中文文本,这是双语模型。‘多’这个字意味着’许多’,虽然从技术上讲两个也算’许多’,但有个更合适的前缀是’双’。我数不清有多少次人们声称训练出了一个在多模态任务中打败GPT - 4o的最先进的开放模型,结果却发现这个模型只支持图像和文本,不支持音频(而支持音频原本是GPT - 4o的重点所在)。总之,当谈论两种模态和语言时用’双’,当谈论三种或更多时用’多’。附言:我不是在贬低这些开放模型的重要性和意义,但最好避免炒作和欺骗社区。

讨论总结

原帖指出在描述模型能力时,“multi”(多)这个词被滥用,例如在仅涉及两种模态或语言时不应使用“multi”,而应使用“bi”(双)。评论者们对此观点反应各异,有赞同原帖观点并进一步补充举例的,也有反对原帖观点,从语义定义、实际应用等多方面提出质疑的,整体氛围充满争议性,涉及到多模态、模型能力、术语等多个方面的讨论。

主要观点

  1. 👍 应准确使用描述模型的词汇,如涉及两种模态或语言时使用“bi”,三种或更多时使用“multi”
    • 支持理由:避免炒作欺骗社区,准确传达模型能力
    • 反对声音:部分人认为“multi”定义包含“多于一个”,原帖前提有误;还有人认为单独为恰好支持两种的模型设立一个名称价值存疑
  2. 🔥 原帖作者对“multi”一词用法的执着没有必要
    • 正方观点:“multi - modal”这种用法可以接受,虽然有更好的描述但不影响理解
    • 反方观点:原帖作者认为准确用词可避免混淆和误导
  3. 💡 标准化语义模型卡和命名法有助于了解模型能力
    • 解释:现在模型接受和生成能力难以知晓,包括粗层次和具体能力参数,标准化命名法能改善这种情况
  4. 💡 多语言这个术语在低资源语言工作方面存在问题
    • 解释:理论上的多语言性不能反映对某些语系的能力,希望开发者使用ISO639 - 5代码
  5. 💡 存在滥用“multi”一词进行模型营销的现象
    • 解释:如随着模型功能增加,可能会出现更夸张的营销词汇,误导社区

金句与有趣评论

  1. “😂 Stop calling it "multiplication" by 2, you’re only adding the number twice. What you did is called BI - PLICATION!!”
    • 亮点:以幽默的方式支持原帖关于正确使用“multi”和“bi”的观点,通过创造新词汇强调准确表述的重要性
  2. “🤔 I’m fully expecting that people market MASSIVELY MULTIMODAL once we get to models that can do more than four things.”
    • 亮点:预期未来随着模型功能增加,滥用词汇营销的情况会变本加厉,反映出对这种营销现象的担忧
  3. “👀 Many (lol) dictionaries have “more than one” explicitly as a definition. Some have it as the first definition.”
    • 亮点:以词典定义为依据反对原帖关于“multi”的定义,使反对观点更具说服力
  4. “🤔 Bimodal means a specific thing in statistics and is a pervasive enough term that a "bimodal model" would be confusing terminology.”
    • 亮点:从统计学角度指出“bimodal”有特定含义,用于描述模型会造成混淆,为反对原帖观点提供新的角度
  5. “😂 Weird hill to die on honestly.”
    • 亮点:简洁地表达出对原帖作者执着于“multi”一词用法的不屑态度

情感分析

总体情感倾向为争议性较大。主要分歧点在于是否应该严格按照原帖所说的那样规范“multi”和“bi”的使用。支持原帖观点的人可能更注重准确表达模型能力,避免炒作和欺骗;而反对者可能从语义的宽泛性、实际应用中的理解便利性等方面考虑,认为原帖的要求过于苛刻。

趋势与预测

  • 新兴话题:模型能力描述的标准化命名法可能成为后续讨论热点,如语义模型卡的标准化等。
  • 潜在影响:如果在模型能力描述方面能够达成一定的规范共识,将有助于用户更清晰地了解模型能力,避免被误导;反之,如果争议持续,可能导致模型营销和描述更加混乱。

详细内容:

标题:Reddit 上关于术语“multi”滥用的热门讨论

在 Reddit 上,一篇题为“For the love of God, stop abusing the word ‘multi’”的帖子引发了热烈讨论。该帖指出,在涉及语言模型的描述中,对“multi”一词存在滥用现象,比如将仅支持文本和视觉两种模态的模型称为“multimodal LLM”,将仅支持英语和中文两种语言的模型称为“multilingual”。此帖获得了众多关注,评论数众多,引发了关于语言模型术语准确性和标准化的广泛讨论。

讨论焦点与观点分析:

  • 有人认为“omni”一词的使用更糟糕,比如仅支持 3 种模态却用“omni”来描述。
  • 有用户提出可以对气味进行标记化处理,认为这在理论上是可行的。
  • 关于如何将气味或触摸融入未为此设计的模型,引发了不同看法。
  • 有人希望能对输入输出模式的语义模型卡和术语进行标准化。
  • 对于行业是否应朝着真正的多模态方向发展,存在不同观点。
  • 关于“multi”一词的定义和使用,有多种意见。有人认为其定义包含“不止一个”,所以帖子的前提有缺陷;也有人认为有专门描述恰好两种输入方法的术语是有价值的。

例如:有用户分享道:“如果他们开始对某种语义模型卡进行标准化,也许包括输入输出模式的命名法,那将非常有帮助。比如:T-T: Text to Text,TI-T: Text / Image to Text,TIS-T: Text / Image / Speech to Text 等等。但确实很烦人,因为很难在粗粒度上搞清楚一个模型能接受或生成什么,更别说像图像分辨率、能处理的语言等细节了。”

这场讨论中的共识在于大家都认为目前语言模型术语的使用较为混乱,需要更清晰准确的表述。一些独特的观点,如对气味和触摸融入模型的探讨,丰富了讨论的深度和广度。

总之,这一讨论反映了人们对语言模型领域术语规范化的关注和思考。