《纽约时报》诉OpenAI:互联网版权之战的新时代

出色的力量 2024-02-09 09:59:17

OpenAI 无疑是当前生成式人工智能领域的明星。然而伴随其发展产生的争议和冲突也不绝于耳。最新的事件是《纽约时报》于 2023 年 12 月 27 日向纽约南区联邦地区法院提交诉状申请陪审团审判,并在该诉状中详细陈述 OpenAI 和微软及其产品实施的版权侵权行为。

《纽约时报》认为被告(OpenAI 及微软)的商业模式即基于大规模的版权侵权。被告的生成式人工智能产品的核心是被称为“大语言模型”(LLM)的计算程序,其中第一个大语言模型 GPT 发布于 2018 年。后来的聊天类型的 GPT3.5 和 GPT-4 通过大量的数据进行训练,而训练需要收集和存储大量文本内容,纽约时报的优质文本内容成为其中重要且更具价值的部分。但 OpenAI 和微软并未就其收集《纽约时报》的内容用于训练获得授权或者提供补偿。另外,通过训练的 GPT 大语言模型已经记忆《纽约时报》的作品,其输出近乎逐字地复制了《纽约时报》作品的重大部分。这无疑构成了未经授权对《纽约时报》作品的复制和衍生。

《纽约时报》出版人 A.G.Sulzberger,如今他的公司正在与人工智能法律之战的最前线。

此外,基于GPT大语言模型的合成搜索应用,包括 Bing Chat 和 Browse With Bing,在其搜索结果中大量展示《纽约时报》内容的摘要和改述。这些内容并不包含在模型的训练数据集中,意味着这些应用在运行过程中从互联网上直接复制《纽约时报》的内容;并且这些搜索结果回复的内容经常超出普通搜索结果展示片段的范畴,导致用户不再需要进一步查看来源原文。这必然造成用户流量从纽约时报等版权所有方流失。

《纽约时报》向 OpenAI 和微软提起的诉讼并非关于生成式人工智能的第一个案件。此前,盖帝图像(Getty Image)在特拉华州起诉了人工智能艺术公司 Stability AI,主张其侵犯了盖帝的版权。另外,美国作家协会也同样在美国纽约南区联邦地方法院向 OpenAI 提起版权侵权的集体诉讼。

OpenAI 和其他人工智能公司对于训练数据可能带来的版权诉讼并非毫无准备。如何应对潜在的版权诉讼,并寻求法律上对使用版权内容进行训练的合法性认定,一直是这些人工智能公司的重要议程。这一方面促使人工智能公司在训练阶段就开始关注数据合规,另一方面他们为随时可能出现的版权纠纷做好准备。一些人工智能公司甚至走得更远,比如 OpenAI 为其公司用户提供了被称为 Copyright Shield 的服务,即在用户使用 ChatGPT 而面临版权侵权纠纷的情况下,OpenAI 将直接介入为用户提供辩护并承担产生的费用。

Sam Altman 在开发者日(DevDay,OpenAI 的年度发布会)上宣布 Copyright Shield 服务。

在美国,生成式人工智能开发者常用的抗辩理由是:主张公开互联网领域的内容可以被用于训练生成式人工智能技术,因为这构成法律允许的合理使用范围。《纽约时报》在其诉状中提到被告在双方此前的谈判中,也坚持认为使用《纽约时报》内容训练生成式人工智能模型属于“转换”目的,从而构成“合理使用”。但是,《纽约时报》认为这不属于转换使用,因为生成式人工智能模型复制了《纽约时报》的内容并与《纽约时报》产生了竞争,无法构成合理使用。根据美国的司法实践,合理使用的一个重要考虑因素是转换使用是否对版权作品潜在市场或价值造成影响。对《纽约时报》而言,其原本拥有一个成熟的读者付费获取内容的市场。然而,OpenAI和微软的非法行为导致其现有和潜在读者的流失,进而减少了订阅、广告、授权和其他相关利润。利润的减少将最终影响《纽约时报》持续创造高质量内容的能力。

在中国,早前北京互联网法院作出了第一列人工智能生成内容的著作权纠纷判决。该判决明确了人工智能生成图片的作品属性和使用者的创作者身份。然而,该案例处理的仅仅是生成式人工智能输出内容的版权是否可保护的问题。如果输出内容本身来源于创造生成式人工智能的训练数据或者来源于生成式人工智能运行中复制的互联网数据,而这些数据受到其原作者的版权保护,那么输出内容的可版权保护性会受到怎样的影响,对于原作者的版权侵权责任应当如何在人工智能开发者和使用人工智能创造新内容的使用者之间分配等等问题都是未来需要回应的。另外,中国尚无案例触及生成式人工智能训练数据的版权侵权问题。

《纽约时报》的案件也涉及了输出内容的版权侵权问题。另外,在输出端侵权问题上,此前已经有艺术家团体向 Midjourney、 Stability AI 等图片人工智能公司提出侵权主张。但是从美国法院的态度来看,原告证明输出内容的版权侵权难度可能更大。在输出内容本身是否可版权保护性方面,美国版权局已经收到多起生成式人工智能生成作品的版权注册申请,为此,该机构于 2023 年 3 月发布了“含有人工智能生成元素的作品”的版权注册指南,澄清了对于含有人工智能的作品进行审查和注册的政策。

当然,中国同样有关于训练数据的版权侵权问题的讨论和实践尝试。2023 年 7 月,中国发布了《生成式人工智能服务管理暂行办法》,其中明确要求服务提供者应当对训练生成式人工智能的数据来源合法性负责,包括确保数据不侵犯知识产权。囿于中国的法律体系和司法实践,将生成式人工智能使用大量版权数据进行训练纳入现有的合理使用范围存在实质性的障碍。这无疑给未来可能产生训练数据版权侵权纠纷留下很多不确定性。然而,我们也看到一些实践层面的探索以期望减少纠纷,比如视觉中国上线的图片 AI 创作工具在上架初期即声明原作者能够获得分成收益,希望从商业安排的层面避免未来的版权纠纷。

在起诉前,《纽约时报》与 OpenAI 和微软已经进行了数月的商业谈判,但是双方无法达成协议。OpenAI 方面认为谈判进展富有成效,因此对于《纽约时报》的起诉感到“意外和失望”,并仍然期望双方能够达成互利的结果。在出版领域,也有其他版权所有方正在跟包括 OpenAI 在内的人工智能开发者谈判或者已经达成了协议。新闻集团(News Corp)已经开始跟人工智能开发者开展商业讨论但是并未公布任何授权协议;美联社已经与 OpenAI 达成商业协议授权使用其内容。

微软向 OpenAI 投资了 130 亿美元以换取其商业盈利部门 49% 的股份。

传统媒体公司等版权所有方希望从蓬勃发展的人工智能产业中获得它们认为合理的收益分享。因而生成式人工智能成为传统媒体等版权所有方和新科技公司角力的又一个新阵线。但是,这并不是双方的第一次交锋。美国的《数字千年版权法案》(DMCA)中的“安全港”原则,就是历史上新兴互联网行业和传统好莱坞之间商业竞争妥协的产物。简单而言,向公众提供网络服务的互联网服务提供商,不需要对公众上传至其网站的版权侵权作品承担责任,前提是该互联网服务提供商在收到版权所有方通知的情况下,应当立即下架相应的侵权内容。

DMCA 起源于 1993 年克林顿政府组建的信息基础设施特别小组撰写的“信息高速公路计划”的报告。1998 年最终公布的 DMCA 意图在保护版权所有者免受大规模的数字盗版和通过互联网快速获得电影、音乐、软件和文学作品之间取得平衡。电影公司、音乐厂牌、出版商等传统商业版权所有者担心——快速扩张的数字网络会便利对其作品未经授权的大面积复制,因此他们不愿意提供数字形式的作品,除非提高相应的法律保护。另一方面,提供网络连接的电信服务商担心因为自己没法控制的用户版权侵权行为而承担直接或间接侵权责任。雪上加霜的是,当时各级法院在关于互联网服务提供商的责任认定上作出了不一致甚至相反的裁决。互联网服务提供商的责任不明确,导致提供商不愿意投入必要的投资来提高互联网的速度和拓宽互联网的能力。在多方角力的情况下,虽然克林顿政府最开始意在满足好莱坞的要求制定反规避规则,即禁止破坏好莱坞版权所有方采用的数字版权管理的数字锁或者提供相应的破坏工具,然而最终电信服务商和互联网服务提供商也获得了“安全港”原则的保护。

我们发现,生成式人工智能面临着当年电信服务商和互联网服务提供商面临的相似困境,即其行为被认定为合法的不确定性。这一不确定性可能在一定程度上阻碍生成式人工智能领域的发展。正如我们看到的历史,在 DMCA 的安全港机制生效之后,美国互联网领域得到了快速的发展,法律机制提供的确定性可能起到了一定的帮助。

而今天,美国司法上仍然在讨论生成式人工智能使用版权内容进行训练是否可以纳入合理使用的范畴。同时行政和立法方面也在努力寻找法律的解决方案。美国版权局就人工智能相关的政策征求意见,其中之一即关乎使用受版权保护的作品用于训练人工智能。参议院也多次召开听证会听取行业关于版权和人工智能的意见,涉及合理使用,也涉及是否应该提供给版权所有人其他的退出机制,允许其将版权作品排除在训练数据之外。或许,我们未来可能看到类似于安全港这样的多方妥协的产物。

位于美国首都华盛顿特区的美国版权局(United States Copyright Office)已就人工智能相关政策征求意见。

在欧洲,作为版权法的例外,人工智能开发者希望依赖于《数字单一市场版权指令》中的文本数据挖掘(TDM)例外,合法获取版权内容作为训练数据。TDM 提供了替代性的退出机制,不再需要获得版权所有方的事先授权。版权所有方能够通过恰当的退出机制阻止生成式人工智能使用其版权内容作为训练数据,这种退出机制可以是机器可识别的方式、协议条款或者单方面的声明。然而,对这一例外适用于生成式人工智能训练数据的批评和赞扬的声音都存在,其有效性更有待进一步观察。但它似乎提供了合理使用之外的另一个现实法律解决途径。

在中国,学理层面已经存在很多讨论关于如何合法化生成式人工智能使用版权内容的行为,包括拓展我国《著作权法》中合理使用的范围;或者借鉴著作权集体管理机制,由集体管理机构登记著作权人是否同意将其版权内容用于生成式人工智能训练。然而如面对很多其它新生事物一样,法律的演进往往无法第一时间回应现实的需求,更多的时候它只是基于现实经验的总结。我们不希望法律对问题放任不管,也不希望法律匆忙入局反而限制甚至阻碍新生事物的发展。面对生成式人工智能这样一个全球性的新事物,而且是各国希望在其竞争中占据高地的新事物,各国家和地区也希望观察和借鉴其他国家和地区的路径,以期实现法律的保护和促进的平衡。

0 阅读:0

出色的力量

简介:感谢大家的关注