原贴链接

西班牙政府资助了官方和公共大型语言模型(LLM)的训练,主要基于西班牙语和西班牙官方语言进行训练。主页面:https://alia.gob.es/,Huggingface模型:https://huggingface.co/BSC - LT。主要发布的模型有:Alia 40b(基础模型仍在训练,已发布中间结果;指令版本将在未来发布)、Salamandra 2b/7b(基础版和指令版可用)。主模型使用西班牙Marenostrum 5,总共2048个GPU(H100 64Gb)进行训练。它们均为Apache 2.0许可,并且大多数数据集也已发布。它们主要基于欧洲语言进行训练。此外还发布了一些翻译模型:Salamandra TA 2b(可直接进行30种主要欧洲语言之间的翻译)、Plume 256k、128、32k(gemma2模型的微调,用于西班牙语之间的翻译)、Aina模型(一系列用于西班牙语之间翻译的一对一模型)。Alia 40b是最新发布且最重要的模型,尽管目前测试期间看到的结果相当糟糕。关于结果的帖子:https://www.reddit.com/r/LocalLLaMA/comments/1i6qecq/spanish_alia_model_has_been_trained_with_porn_and/

讨论总结

西班牙政府发布官方模型,包括Alia 40b等,这件事引发了Reddit用户的讨论。话题涵盖数据是否公开、模型命名是否失误、国家模型的使用方式以及西班牙官方语言支持等方面,大家各抒己见,讨论氛围较为理性。

主要观点

  1. 👍 关心西班牙政府是否公开数据集
    • 支持理由:良好的数据集能提升西班牙语熟练度,对研究有价值
    • 反对声音:无
  2. 🔥 对西班牙政府发布官方模型的合理性表示怀疑
    • 正方观点:多数大型模型已有不错的西班牙语支持
    • 反方观点:西班牙还有其他官方语言如巴斯克语,当前模型对这些语言支持不太好
  3. 💡 认为模型会快速过时
    • 解释:未提及具体支持理由
  4. 💡 希望数据集是公开的,这是有价值的贡献
    • 解释:公开数据集可让研究社区免费工作,对提升语言能力有帮助
  5. 💡 指出开放数据集常被忽视
    • 解释:在大型语言模型之前就已存在且常被忽视

金句与有趣评论

  1. “😂 Well they free the dataset? Because models going to old very fast while with a well build dataset allow more profiency of the Spanish languaje~”
    • 亮点:提出数据集公开与模型过时、提升西班牙语熟练度的关系
  2. “🤔 他们真的错过了一个不把它命名为se llama的机会。”
    • 亮点:指出西班牙政府发布模型在命名上的失误
  3. “👀 英国政府可以对英国广播公司自1920年代以来的所有内容训练几个生成模型,并通过BBC门户仅向经过验证的英国用户在网站上免费提供,因为它是公共财产,我们已经通过电视许可证为其付费了。”
    • 亮点:提出英国政府利用BBC内容训练模型并提供给英国用户的设想
  4. “😉 MokoshHydro:Does this make sense? I thought most big models have good spanish support.”
    • 亮点:对西班牙政府发布官方模型的合理性提出质疑
  5. “😊 HugoCortell: Well, this is… nice.”
    • 亮点:对西班牙政府发布官方模型这件事表达正面态度

情感分析

总体情感倾向较为中立,既有对西班牙政府发布官方模型表示肯定的,也有提出质疑的。主要分歧点在于对西班牙政府发布官方模型的合理性,可能的原因是大家从不同角度看待这件事,如模型的实用性、对不同语言的支持等方面。

趋势与预测

  • 新兴话题:利用公共资源训练模型并定向提供给特定用户的模式。
  • 潜在影响:可能影响各国政府对语言模型资源的开发与利用方式,以及对不同官方语言支持的重视程度。

详细内容:

标题:西班牙政府发布部分官方语言模型引发Reddit热议

西班牙政府出资训练了官方和公共的语言模型,主要针对西班牙语及西班牙的共官方语言。相关信息的主页面为:https://alia.gob.es/ ,Huggingface 模型链接:https://huggingface.co/BSC-LT 。已发布的主要模型包括仍在训练中的 Alia 40b ,以及 Salamandra 2b/7b 等。目前,Alia 40b 作为最新发布且最重要的模型,在测试中的结果却不太理想。此帖获得了较高的关注度,引发了众多讨论。

在讨论中,有人表示“他们会公开数据集吗?因为模型很快就会过时,而良好构建的数据集能够提高西班牙语的熟练度。”也有人希望如此,认为这是有价值的贡献。还有人提到开放数据集常常被忽视,这种情况在 LLM 出现之前就已存在。如果要解决问题,要么独自工作、创建自己的算法并难以保持其现代化,要么发布开放数据集,让整个研究社区免费为你工作。

有人认为他们错失了把模型命名为“se llama”的机会。有人提出会有国家级模型出现,有的免费向所有人开放,有的规模太大只能在线使用。还有人质疑创建仅面向英国用户的模型意义何在,是否是狭隘的民族主义。对此有人回应称,其要点在于向海外用户授权收费,就像 BBC 对其节目和网站进行商业化一样。

有人质疑这是否有意义,认为大多数大型模型对西班牙语已有良好支持。也有人指出在西班牙还有像巴斯克语这样的共官方语言,当前模型在这些语言方面表现不佳。还有人认为用较少语言训练的模型可以更小更快,同时对这些语言保持相同的能力。有人认为这很好。也有人仍在等待能很好地讲法语和英语的小型开源模型。

此次讨论的核心问题在于西班牙政府发布的这些语言模型的实用性、开放性以及对不同语言的支持程度。一方面,人们期待这些模型能带来更优质的语言处理服务;另一方面,对于模型的局限性和应用范围也存在诸多疑问和争议。