"我们会用完数据"真的吗？

谷歌搜索结果显示，互联网有64泽字节（ZB）的数据[1]。

1泽字节（ZB）=1,000,000,000太字节（TB）

目前，我们在训练模型时仍然处于太字节（TB）范围内。

根据Common Crawl，在2023年6月，整个网络爬取的内容包含约30亿个网页和约**400太字节（TB）**的未压缩数据。Common Crawl捕捉到的是网络中一小部分公开可访问的内容。互联网数据包含大量内容，其中许多内容并不打算公开访问或进行网络爬取。

私人组织中的大量数据，以及付费墙或阻止爬取的网站上的数据都存在。而且我们忽略了一件事——许多国家正在逐步采用技术进行日常任务。当然，西方国家已经覆盖了这些技术。但大多数亚洲和非洲国家仍在采用互联网。这就像一半的人口。随着物联网（IoT）使用的增加，数据只会不断增加。

在我看来，训练模型的下一步将不会使用生成的数据，而是购买这些大量私人部门的数据。我们不会用完数据。

[1]：根据IDC的数据，全球数据量在2020年达到了64泽字节（ZB），并预计到2025年将增长到175泽字节（ZB）。这一数字包括所有类型的数字数据，不仅仅是可在线访问的数据（Rivery）。

讨论总结

本次讨论主要围绕“我们是否会耗尽数据”这一主题展开，参与者们广泛讨论了互联网数据量的巨大、数据质量的问题、以及数据的可访问性和价值。评论者们普遍认为，尽管互联网数据量巨大，但数据质量参差不齐，存在大量“垃圾”数据。同时，随着技术的普及和物联网的发展，数据量将持续增长。此外，评论者们也指出，随着人们对数据价值的认识提高，数据的可访问性和可用性可能会受到限制。总体来看，讨论呈现出对数据量持续增长的乐观态度，同时也对数据质量和可访问性表示担忧。

主要观点

👍 互联网数据量巨大，且持续增长
- 支持理由：随着技术普及和物联网的发展，数据量将持续增长。
- 反对声音：数据质量参差不齐，存在大量“垃圾”数据。
🔥 数据质量参差不齐，存在大量“垃圾”数据
- 正方观点：数据质量对模型的性能至关重要。
- 反方观点：数据量的增加并不等同于模型智能的提升。
💡 数据的可访问性和可用性可能会受到限制
- 解释：随着人们对数据价值的认识提高，可能会采取措施保护数据。
🌐 随着技术普及，数据量将持续增长
- 解释：亚洲和非洲等地区的互联网技术普及将增加数据量。
💰 数据的价值和可访问性是双刃剑
- 解释：高质量数据难以获取且需要花费资金。

金句与有趣评论

“😂 4onen：Counterpoint: people are realizing the value of their data and locking it down, so we will run out of freely accessible and financially easily accessible data.”
- 亮点：强调了数据价值和可访问性的矛盾。
“🤔 olivierp9：and to add to this, most of the data on the internet is garbage. if you train on all that garbage, it’s garbage in garbage out”
- 亮点：指出了数据质量对模型训练的重要性。
“👀 martinerous：It’s a double-edged sword. An "intelligent AI" also should know that garbage exists and how to sometimes find something useful there.”
- 亮点：提出了AI模型需要具备处理低质量数据的能力。

情感分析

讨论的总体情感倾向较为复杂，既有对数据量持续增长的乐观态度，也有对数据质量和可访问性的担忧。主要分歧点在于数据的质量和可用性，以及如何平衡数据量和数据质量。可能的原因包括技术发展的不确定性、数据保护意识的提高以及数据资源的分布不均。

趋势与预测

新兴话题：数据质量和数据可访问性的提升将成为未来讨论的重点。
潜在影响：高质量数据的稀缺性可能会推动数据市场的发展，同时促进数据处理和筛选技术的创新。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

讨论总结

主要观点

金句与有趣评论

情感分析

趋势与预测