原贴链接

我对古登堡计划的免费电子书做了一些研究，尤其是德语电子书，因为我一直想知道为什么小模型的德语表现往往这么差。但我认为这个问题在很多其他语言中也存在。我很快就注意到一个我已经预料到的问题，有时候我从这些文本中能确切地识别出那种糟糕的德语，一些德语小语言模型经常生成这种德语。

那里的许多电子书都来自非常古老的书籍（这就是它们免费的原因），使用的是一种语言风格和词汇，这些词汇几十年来都没有人使用过了。而且，免费的旧电子书并不意味着它们的语言质量就很好。语言已经发生了很大的变化，将这些未经处理/过滤的数据用作训练材料不会让人工智能变得更好，只会更糟，因为100多年来的语言被混在一起，人工智能自然无法区分哪些语言来自哪个时代，它把所有的都混在一起了。语言模型本来就存在理解时间方面的问题。

在这里我看到了一个普遍的问题，许多语言模型都是用这样的材料训练的。甚至Reddit上的文本也被用于人工智能训练，我们都知道这里的文本质量有多差，因为它通常只是人们匆匆写下的评论，人们不太注意拼写。我自己就是一个很好的例子，而且我经常只是用DeepL把文本翻译成英语，就像这里一样，这只是让情况稍微好一点。

我们需要更好的经过筛选的训练材料，特别是对于小模型和微调。

例如，来自[https://gutenberg.org/ebooks/6641]的一本德语电子书的一小部分内容（此处为德语原文示例，略）

讨论总结

原帖主题是古登堡计划的电子书作为训练材料存在问题，尤其是德语电子书，因为很多是古老的书籍，语言风格和用词过时，未经处理作为训练材料会影响模型效果，需要更好的筛选，特别是针对小模型和微调。评论主要观点包括：部分古登堡书籍存在方言难以理解；筛选20世纪前作者的书籍可增加与现代语言的相似性；模型使用特定数据集时需大量语法修正；存在过滤低质量文本的工具等。整体氛围是积极探讨古登堡计划电子书作为训练材料的问题及解决方案。

主要观点

👍 古登堡部分书籍存在方言难以理解的问题
- 支持理由：部分书籍如原帖所举例子是用如今难以理解的方言写成的。
- 反对声音：无
🔥 筛选20世纪前作者的书籍可增加与现代语言的相似性
- 正方观点：这些书籍在语言上更可能与现代德语相似。
- 反方观点：无
💡 需手动整理筛选后的结果，如删除短句
- 解释：为了提高训练材料的质量，手动整理可以去除不必要的内容。
💡 可以利用模型转换古德语为现代德语
- 解释：有可将古德语转换为现代德语的模型，可用于改进训练材料。
💡 许多LLMs使用未经处理的材料训练是普遍问题
- 解释：原帖提到古登堡的情况并非个例，在查看其他数据集时也发现类似问题。

金句与有趣评论

“😂 A further problem is that some books, like the one you linked, are written in dialects that today are hardly understood at all:”
- 亮点：直接指出古登堡书籍存在的方言难以理解的额外问题。
“🤔 If you try to use Gutenberg books, you ought to filter for authors that lived until the 20th century, so that you have a better chance that your texts actually resemble current German.”
- 亮点：提出了针对古登堡书籍筛选作者以改善训练材料的具体方法。
“👀 ProcurandoNemo2：That may be the reason why I need to make a lot of grammar corrections when using a model with that dataset.”
- 亮点：将模型需要语法修正与古登堡电子书的语言问题联系起来。

情感分析

总体情感倾向是积极探索性的。主要分歧点在于不同人对不同语言（如德语和英语）中古登堡书籍作为训练材料的看法不同，可能的原因是不同语言的古登堡书籍本身的质量、风格等存在差异。

趋势与预测

新兴话题：探索在训练材料中添加元数据或者在文档层面进行操作以改进语言模型训练。
潜在影响：如果能够找到更好的训练材料处理方式，可能会提高语言模型的准确性，减少语法等问题，进而对自然语言处理领域产生积极影响。

详细内容：

《关于古登堡训练材料的热门讨论》

在 Reddit 上，一篇关于古登堡训练材料的帖子引发了广泛关注。该帖指出，在对古登堡免费电子书（特别是德语的）进行研究时，发现了诸多问题，其获得了大量的点赞和众多评论。

原帖认为，古登堡的许多电子书年代久远，语言风格和用词早已过时，未经处理和筛选就作为训练材料会使 AI 表现不佳，因为语言在过去百余年中已发生巨大变化，而 LLMs 难以区分语言所属的时代，导致各种语言混乱混合。同时还提到，即便是 Reddit 上的文本，因质量不佳，用于 AI 训练也存在问题。

讨论焦点主要集中在如何解决训练材料的质量问题。有人指出，对于像所链接的这类书籍，有些是用如今几乎难以理解的方言写成的。如果使用古登堡的书籍，应当筛选 20 世纪及以后作者的作品，并人工精心整理。也有人认为可以选择包含新信息的句子，或用 AI 来对这些旧作品中的语言进行现代化处理。还有用户分享了自己在 unslop 数据集上的相关经历。有人提到存在先进的工具来过滤低质量文本，以及可以通过模型将古德语翻译为现代德语。也有人思考能否在训练时为旧书的文本块添加说明，表明书籍的属性。

有观点认为在英语中，版权过期的早期出版作品往往写得很好、经过了充分编辑等。但也有人反驳，比如提到莎士比亚的作品。

此次讨论的核心问题在于如何为 LLMs 提供更优质、经过精细筛选和处理的训练材料，以提升其语言理解和生成能力。在这场热烈的讨论中，各方观点精彩纷呈，为解决这一问题提供了多元化的思路和方向。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#