大家好,感觉我们被困在两种主流范式中了,这开始让我心烦。让我解释一下:
过于聚焦英语的大型语言模型(LLMs) 我们看到越来越多的模型——通义千问(Qwen)、米斯塔尔(Mistral)、Llama 3.x等——声称具备“多语言”能力。如果你仔细观察,每个模型解决问题的方式都不同。然而,我的实际使用场景中,即便对于70B规模的这些大型语言模型,也往往无法获得良好体验。 是的,我知道英语受众最广,但将一切都聚焦在英语上,我们正在限制其他语言(法语、西班牙语、意大利语等)细致的文化和风格上的丰富性。 结果就是,我们很少能在英语之外看到新的“风格”或推理模式。
对“助手”的痴迷 每个人都想构建一个对话助手。当然,这是一个流行的用例,但这有点将我们锁定在一种单一的格式中:一种礼貌、自我审查风格的问答流程。 我们忘记了这些是可以为创造性文本操作或其他生成形式进行调整的标记生成器。 我真的希望我们能探索更多样化的用例:场景生成、数据到文本或者其他不那么单一的对话协议。
我理解模型发布者投入大量资源进行基准测试并增强多语言能力。例如,Cohere For AI的Aya Expanse在这方面代表了一个显著的进步。尽管有这些努力,在现实场景中,使用开源模型时,我用法语从未能够达到和英语一样的性能水平。相反,闭源模型在不同语言间保持更一致的性能,这很令人沮丧,因为我更愿意使用开源模型。
难道只有我觉得我们被困在“仅英语的大型语言模型”和“对话助手”范式之间吗?我认为在更好的多语言支持和更有趣的用例方面有很大的潜力。
讨论总结
原帖指出LLMs过于聚焦英语,限制了其他语言文化和风格丰富性,同时过于痴迷“助手”范式,局限于问答流风格而忽略其他用途,并且开源模型多语言表现不如闭源模型。评论者们从不同角度进行讨论,如欧洲数据使用影响欧洲语言在模型中的呈现、一些模型语言回复不符合预期、多语言LLMs在大语种效果较好但小语种支持不足、助手范式不适合多角色对话场景、LLMs英语依赖可提升西方英语国家生产力等。
主要观点
- 👍 多语言LLMs在大语种上工作效果较好,但应支持小语种及其背后文化
- 支持理由:大语种使用效果不错,但小语种也有文化内涵应被支持
- 反对声音:无
- 🔥 助手范式不适合多角色对话场景,应只是一对一对话中的一种角色
- 正方观点:多角色对话场景有多个AI或人类交互,助手范式的交替交互不适用
- 反方观点:无
- 💡 数据量差异是LLMs被困于英语和助手范式的关键
- 解释:英语数据多,其他语言数据少,导致聚焦英语和陷入助手范式
- 💡 监管政策不是LLMs多语言支持不佳的原因,而是投资回报因素
- 解释:模型可随意使用数据,多语言支持不佳是投资回报考量
- 反对声音:有人认为闭源LLMs不存在此问题
- 💡 讨厌LLMs中的助手人格,难以通过微调摆脱
- 解释:在一些模型中普遍存在,不同版本难以区分且总有助手人格
金句与有趣评论
- “🤔 从我的经验,我注意到当模型用英语或者,在我的情况中,意大利语写作(或者“思考”,如果被提示使用思维链)时,两者的“语气”和“修辞”是不同的。”
- 亮点:体现不同语言下模型表现不同
- “😂 那很有趣,很多人想要英语回复时它却回复普通话。”
- 亮点:以Qwen为例说明语言回复不符合预期的有趣现象
- “👀 我真的不觉得问答格式有局限性。看到局限性更多是缺乏想象力的表现。”
- 亮点:对原帖问答格式局限性观点的反对,角度独特
情感分析
总体情感倾向较为复杂。原帖作者有抱怨情绪,部分评论者表示认同并也有不满情绪,如对LLMs中助手人格的厌恶,对助手角色的诸多不满等;但也有反对原帖观点的,如认为问答格式无局限性、LLMs的英语依赖性是一种特性等。主要分歧点在于对LLMs英语依赖和助手范式的看法,可能的原因是大家所处的语言环境、使用需求以及对LLMs发展期望不同。
趋势与预测
- 新兴话题:模型训练的改进方向,如长上下文模型小样本训练。
- 潜在影响:对LLMs发展方向产生影响,促使开发者关注多语言支持和更多样使用场景的开发,同时也可能影响不同语言文化在模型中的呈现。
详细内容:
《关于 LLMs 局限性的热门讨论》
近日,Reddit 上一篇题为“[Mini Rant] Are LLMs trapped in English and the assistant paradigms?”的帖子引发了广泛关注,获得了众多点赞和大量评论。帖子主要探讨了两个主流范式让作者感到困扰的问题,一是 LLMs 过于聚焦英语,二是对“助理”模式的过度依赖。
在讨论焦点与观点分析方面,有人指出,过于聚焦英语会限制其他语言的文化和文体丰富性。例如,有用户说:“通过将一切都聚焦在英语上,我们正在限制其他语言(如法语、西班牙语、意大利语等)的细微文化和文体丰富性。”但也有人认为这是欧洲自身的决策问题,使用欧洲数据存在成本高、法律风险大等问题。
关于“助理”模式,不少人认为它存在局限性。比如,有用户表示“‘助理范式’的主要问题在于它通常期望用户和模型交替发言,不适合多角色交流的场景。” 但也有人认为这不是问题,缺乏想象力才会觉得有限制,当前格式可以实现各种需求。
讨论中还提到不同语言的模型表现。有德国用户称,流行模型在德语的学术和正式部分表现不错,但在日常用语方面仍逊于实际使用者。
同时,也有人指出,大型语言模型在多语言训练和应用方面存在不足,一些小语种的支持缺失。有人觉得 Q&A 格式本身并非限制,而是看待方式的问题。
总之,这次关于 LLMs 局限性的讨论展现了大家对语言模型发展的多元思考和期待,也反映出当前语言模型在多语言支持和应用场景拓展方面仍有很大的提升空间。
感谢您的耐心阅读!来选个表情,或者留个评论吧!