《纽约时报》从最大的人工智能训练数据集中删除了其内容它是这样做的
2025-07-10 01:39

《纽约时报》从最大的人工智能训练数据集中删除了其内容它是这样做的

  

  

  《纽约时报》发现了一个大型人工智能训练数据集公司ntained l链接到受版权保护的内容。

  这家媒体公司也找到了自己的公司内容在其他人工智能训练数据集中,如WebText。

  《纽约时报》要求Common Crawl删除其内容。

  NEW LOOK注册获取今日市场、科技和商业领域最重要新闻的内幕消息——每日提供。阅读预览广告

  到目前为止,大多数主要的在线内容创作者都意识到,科技公司多年来一直在未经许可或付费的情况下使用他们的版权作品来训练人工智能模型。

  其中一些内容所有者正在采取行动,甚至开始成功地阻止这种活动。

  《纽约时报》发现,最大的人工智能训练数据集之一Common Crawl包含数百万个链接到其付费文章和其他受版权保护内容的url。

  Common Crawl是通过使用名为CCBot的抓取软件抓取大部分网络而构建的。运营该网站的基金会表示,自2007年以来,该网站已经积累了超过2500亿个页面,每月新增页面多达50亿个。

  广告

  这为许多大型语言模型(包括OpenAI的GPT-3)提供了训练数据主干。谷歌的Infiniset从C4获取12.5%的数据,C4是Common Crawl的清理版本。

  人工智能模型确实需要这些高质量的训练数据才能表现良好。然而,《纽约时报》不想成为这个新过程的一部分,因为这些模型直接提供答案,而不是将用户发送到原始信息源。

  从本质上讲,这项新技术利用《纽约时报》自己的版权内容来吸走《纽约时报》的读者和付费订阅者。

  因此,今年早些时候,《纽约时报》联系了公共抓取基金会,希望从数据集中提取其内容。

  广告

  “我们只是要求删除我们的内容,很高兴Common Crawl满足了我们的要求,承认了时报对我们高质量新闻内容的所有权,”《纽约时报》发言人查理·施塔特兰德(Charlie Stadtlander)告诉Insider网站。

  根据媒体公司Common Crawl最近写给美国版权局的一封信,该公司还同意将来不再抓取《纽约时报》的内容。

  其他内容创建者也试图阻止Common Crawl。Originality.ai的数据显示,截至9月底,1,000个最受欢迎的网站中有近14%屏蔽了CCBot。那些屏蔽CCBot的公司包括亚马逊、Vimeo、Masterclass、Kelly Blue Book、《纽约客》和《大西洋月刊》。Common Crawl本周没有回应置评请求。

  《纽约时报》在其他流行的人工智能训练数据集中发现了其付费文章和其他受版权保护的内容。媒体公司OpenAI在给美国版版局的信中指出,用于训练ChatGPT-2的WebText的重建版本中,纽约时报的内容占整个数据集的1.2%。

  广告

  《纽约时报》在信中补充说:“一旦有了我们的内容,GAI工具就可以用它做很多事情,包括逐字背诵、总结、起草表达风格相似的新内容,以及利用它来制造看似事实的、归咎于《纽约时报》的错误信息。”

  目前尚不清楚《纽约时报》是否成功地将其内容从WebText和其他人工智能训练数据集中删除。

本内容为作者翻译自英文材料或转自网络,不代表本站立场,未经允许不得转载
如对本稿件有异议或投诉,请联系本站
想要了解世界的人,都在 世腾网

相关推荐