原贴链接

谷歌搜索结果显示,互联网有64泽字节(ZB)的数据[1]。

1泽字节(ZB)=1,000,000,000太字节(TB)

目前,我们在训练模型时仍然处于太字节(TB)范围内。

根据Common Crawl,在2023年6月,整个网络爬取的内容包含约30亿个网页和约**400太字节(TB)**的未压缩数据。Common Crawl捕捉到的是网络中一小部分公开可访问的内容。互联网数据包含大量内容,其中许多内容并不打算公开访问或进行网络爬取。

私人组织中的大量数据,以及付费墙或阻止爬取的网站上的数据都存在。而且我们忽略了一件事——许多国家正在逐步采用技术进行日常任务。当然,西方国家已经覆盖了这些技术。但大多数亚洲和非洲国家仍在采用互联网。这就像一半的人口。随着物联网(IoT)使用的增加,数据只会不断增加。

在我看来,训练模型的下一步将不会使用生成的数据,而是购买这些大量私人部门的数据。我们不会用完数据。

[1]:根据IDC的数据,全球数据量在2020年达到了64泽字节(ZB),并预计到2025年将增长到175泽字节(ZB)。这一数字包括所有类型的数字数据,不仅仅是可在线访问的数据(Rivery)。

讨论总结

本次讨论主要围绕“我们是否会耗尽数据”这一主题展开,参与者们广泛讨论了互联网数据量的巨大、数据质量的问题、以及数据的可访问性和价值。评论者们普遍认为,尽管互联网数据量巨大,但数据质量参差不齐,存在大量“垃圾”数据。同时,随着技术的普及和物联网的发展,数据量将持续增长。此外,评论者们也指出,随着人们对数据价值的认识提高,数据的可访问性和可用性可能会受到限制。总体来看,讨论呈现出对数据量持续增长的乐观态度,同时也对数据质量和可访问性表示担忧。

主要观点

  1. 👍 互联网数据量巨大,且持续增长
    • 支持理由:随着技术普及和物联网的发展,数据量将持续增长。
    • 反对声音:数据质量参差不齐,存在大量“垃圾”数据。
  2. 🔥 数据质量参差不齐,存在大量“垃圾”数据
    • 正方观点:数据质量对模型的性能至关重要。
    • 反方观点:数据量的增加并不等同于模型智能的提升。
  3. 💡 数据的可访问性和可用性可能会受到限制
    • 解释:随着人们对数据价值的认识提高,可能会采取措施保护数据。
  4. 🌐 随着技术普及,数据量将持续增长
    • 解释:亚洲和非洲等地区的互联网技术普及将增加数据量。
  5. 💰 数据的价值和可访问性是双刃剑
    • 解释:高质量数据难以获取且需要花费资金。

金句与有趣评论

  1. “😂 4onen:Counterpoint: people are realizing the value of their data and locking it down, so we will run out of freely accessible and financially easily accessible data.”
    • 亮点:强调了数据价值和可访问性的矛盾。
  2. “🤔 olivierp9:and to add to this, most of the data on the internet is garbage. if you train on all that garbage, it’s garbage in garbage out”
    • 亮点:指出了数据质量对模型训练的重要性。
  3. “👀 martinerous:It’s a double-edged sword. An "intelligent AI" also should know that garbage exists and how to sometimes find something useful there.”
    • 亮点:提出了AI模型需要具备处理低质量数据的能力。

情感分析

讨论的总体情感倾向较为复杂,既有对数据量持续增长的乐观态度,也有对数据质量和可访问性的担忧。主要分歧点在于数据的质量和可用性,以及如何平衡数据量和数据质量。可能的原因包括技术发展的不确定性、数据保护意识的提高以及数据资源的分布不均。

趋势与预测

  • 新兴话题:数据质量和数据可访问性的提升将成为未来讨论的重点。
  • 潜在影响:高质量数据的稀缺性可能会推动数据市场的发展,同时促进数据处理和筛选技术的创新。