[ad_1]
关键要点
- 三位作家对 Anthropic 提起集体诉讼,指控其 “窃取数十万本受版权保护的书籍”。
- 他们对 Anthropic 使用被称为“The Pile”的人工智能训练数据集提出质疑。
- 该人工智能开发商还因使用受版权保护的歌词作为训练数据而被音乐行业起诉。
继 OpenAI 遭遇一系列类似诉讼之后,Anthropic 又因涉嫌使用盗版内容训练其 Claude AI 模型而被作者起诉。
在一个 集体诉讼 8 月 19 日星期一提起的诉讼中,原告 Andrea Bartz、Charles Graeber 和 Kirk Wallace Johnson(Bartz 等人)指控 Anthropic“窃取了数十万本受版权保护的书籍”,这些书籍被汇编在被称为“The Pile”的 AI 训练数据集中。
什么是桩?
为大型语言模型 (LLM) 训练而汇编的 825GB 英文文本语料库,是几起正在进行的 AI 版权案件的核心。
在 Brian Keene、Abdi Nazemian 和 Stewart O’Nan 提起的单独诉讼中,Nvidia 被指控 使用 The Pile 来训练其 NeMo 模型。
与此同时,美国作家协会对微软和 OpenAI 提起诉讼,指控其使用名为 Books2 的类似数据集来训练 GPT 模型。
除了争议较小的数据源外,The Pile 的一个子集(称为 Books3)包含从 bibliotik BitTorrent 追踪器下载的 196,640 本书。这些正是作者所质疑的。
Bartz 等人在诉讼中声称:“很明显,Anthropic 下载并复制了《The Pile》和《Books3》的副本,他们知道这些数据集包含大量来自 Bibiliotik 等盗版网站的受版权保护的内容。”
人类学家承认使用盗版内容
在 2021 年 研究论文 ,人类学家承认使用了有争议的数据集。这篇论文描述了最终开发 Claude 的工作,承认“训练数据集由(…)32% 的互联网书籍组成(…)其中大部分来自 The Pile。”
最新的法律挑战给 Anthropic 带来了新的麻烦,该公司还被一群美国大型唱片公司起诉,这些公司认为其使用受版权保护的录音作为训练数据构成侵犯版权。
人类与音乐出版商
在最初的 诉讼 2023 年 10 月提起的诉讼中,环球、Concorde 和其他主要音乐出版商 (Concorde et al) 等原告指控 Anthropic 在未经知识产权 (IP) 持有人同意的情况下使用音乐歌词来训练其 AI 模型,构成侵犯版权行为。
正如投诉中所说:
“尽管本案涉及的人工智能技术可能非常复杂和前沿,但这里提出的法律问题却简单而长期存在。除非获得版权所有者的许可,否则被告不得复制、分发和展示他人的版权作品来建立自己的业务。”
该案基于原告的指控:“由于 Anthropic 大量复制和吸收出版商的歌词,Anthropic 的人工智能模型生成了与这些歌词相同或几乎相同的副本,明显侵犯了出版商的版权。”
但在最近 驳回动议 ,这位人工智能开发者否认了这一指控。
版权保护与人工智能
许多正在进行的人工智能版权纠纷的核心是一个重要且尚未解答的法律问题:训练人工智能模型是否 本身 侵犯知识产权所有者的版权吗?或者说,是否需要生成违反版权保护的人工智能模型才能构成侵权?
像 Anthropic 这样的人工智能开发商通常强调的是第二个方面。他们认为,训练属于合理使用,只有当发现模型分发受版权保护的材料时才会发生侵权。
Concorde 等人抢先提出了这一论点,并引用了证据,证明他们能够促使 Anthropic 的 Claude 提供受版权保护的歌词。
然而,Anthropic 的驳回动议反驳道:“投诉没有发现任何普通 Claude 用户诱导这种所谓行为的例子。”
出版业相似之处
Anthropic 和 Concorde 等人之间的分歧与 《纽约时报》与 OpenAI. 在这种情况下,《纽约时报》 据称 ChatGPT 生成了其文章的“近乎逐字”摘录。针对这一指控, OpenAI声称 该出版商“故意操纵提示”,而普通用户永远不会这样做。
虽然他没有公开评论具体的诉讼,但 Anthropic 首席执行官 Dario Amodei 此前曾表示,只要模型不重复受版权保护的内容,人工智能训练就算作合理使用。
“我认为每个人都同意模特不应该逐字逐句地输出受版权保护的内容,”他在 面试 今年早些时候。“对于网络上可用的东西,(…)我们认为它不仅仅是收集内容然后吐出来,或者它不应该吐出来。”
对于 Concorde 等人而言,Claude 涉嫌传播歌词是他们案件的重要支柱。但对于最新的集体诉讼,Anthropic 在访问来自被广泛认为是非法的种子网站的 IP 时就越界了。
这篇文章有帮助吗?