孙远钊 | 人工智能的“学习”与“生成”是否侵权初现端倪

发布时间:2025-08-15 16:00  浏览量:1

目次

一、“康科德音乐集团诉人本人工智能公司”著作侵权案

二、OpenAI 公司著作侵权案

三、结论:举证困境与裁判挑战

本文转载自“版权理论与实务”公众号,原文刊载于《版权理论与实务》2025年第6期(第12—20页),原标题为《人工智能的“学习”与“生成”是否侵权初现端倪——由美国两宗案件初步裁定检视当事人的举证困境》,作者孙远钊,文章注释从略,完整原文请见《版权理论与实务》纸质版。

【内容提要】

人工智能大模型使用海量数据集进行“训练”是否构成侵权及相关生成内容是否应该赋权,是当前全球热议的版权问题,相关诉讼案件已在多个法院先后展开。与之相随,当事人如何举证、法院禁令如何签发等,成为诉讼中无可回避的问题。近期在美国发生的两个备受关注的诉讼迎来了法院的初步关键裁定。虽然表面上都属于诉讼前期的处置,但法院对案件未来取向以及可能结果提供了明晰指引,也对所有正在进行或准备提出的类似诉讼提供了一个明确的“路径图”,直接点出了对各当事人乃至法官必须克服的许多难点。本文拟全面深入分析这两宗裁定。涉及人工智能的著作侵权纠纷,几乎是全球性的共通问题。他山之石,应有重要的参考借鉴价值。

【关键词】

人工智能;著作侵权;禁制令;辅助侵权;代理侵权

在无数学者专家仍在争论使用动辄上亿、甚至上百亿的数据集对人工智能系统进行“训练”是否构成侵权及相关的生成内容是否应该赋权之际,实打实的诉讼案件已在多个法院先后展开。对当事人立即产生的困扰是,究竟应如何具体主张?又应如何具体举证,确立在数以亿万计的数据当中,被告恰恰对其作品从事了未经许可的复制或是构成实质近似?站在原告(权利人)立场,几乎必须请求法院签发禁令,但禁令的范围要如何界定?站在被告的立场,基本上唯一能抗辩的是合理使用,但要如何显示其系统的生成内容已经产生了足够的转化或转型?这些是此类案件诉讼中的关键问题,如同一场战争中的重要战役。

一宗诉讼犹如一场战争,尤其在普通法(common law)体系中采取对抗式的诉讼程序(adversarial proceeding)时更为明显。既然如同战争,在整个过程中必然会发生无数的战役(battles),有的是即使输了多个战役却还能最终赢得战争;有的却是在过程中能赢了多数的大、小战役,最终却输掉了整个战争。[1] 换句话说,个别战役的胜败与整场战争的胜利与否或有关联,但并不必然呈现绝对的关系。最近美国有两宗广受国际关注,牵涉对人工智能的“训练”和“生成”是否构成著作侵权的案件分别出台了应会对后续诉讼程序产生重要影响的初步裁定。其中的一宗与音乐创作有关,另一宗则关系对知名媒体的出版内容从事大量未经许可的复制行为。两宗案件的被告是目前最具指标性的人工智能初创企业“人本”公共利益公司(Anthropic PBC,中文为暂译)和 OpenAI 公司。[2]

对权利人而言,鉴于整个诉讼过程耗时耗钱,自然希望在最短时间内取得对其有利的结果,最重要的诉讼手段是请求法院在诉讼的初步阶段就签发诉前或诉中禁制令(injunction),但需要克服重重的举证要求才可望获得法院的支持。

一、“康科德音乐集团诉人本人工智能公司”著作侵权案

第一宗案件是由康科德音乐发行公司(Concord Music Publishing,或译“协和”)、 国会音乐集团(Capitol Music Group, 简 称 CMG)、国会音乐的母公司环球音乐集团(Universal Music Group)和 ABKCO 音乐及唱片股份有限公司(ABKCO Music & Records, Inc.)等大型音乐发行商于 2023 年 10 月 18 日向北加州联邦地区法院(U.S. District Court for the Northern District of California)联合起诉人工智能初创企业“人本”公司,指称后者未经许可大量使用了他们的歌词内容来训练其人工智能工具(产品)—— Claude。除了损害赔偿,共同原告还请求法院签发初步禁制令(preliminary injunction, 即在整个初审诉讼进行期间有效,相当于所谓的“诉中禁令”),让被告对其人工智能工具“ 维持有效的护栏”(maintain effective guardrails),以防止在当下或未来的生成产出对原告出版商拥有或持控的歌词从事全部或部分的复制、散布(distribute,或译“发行”)或展示(展览)。[3] 这明显是针对输出端而言。共同原告也请求法院对输入端的部分签发禁令,希望能禁止被告使用牵涉到原告作品内容的大数据丛集(dataset)作为其“大语言模型”的“训练”素材。

主审本案的 Eumi K. Lee 法官于 2025 年 3 月 25 日裁定拒绝签发初步禁制令。法官首先表明,签发禁制令从来是非比寻常的救济手段,并非当事人的权利。依据美国的司法判例,提出请求的一方(权利人或原告)在案件还未进 入实质审理阶段之前就必须提出相当充足的举证显示有相当可能在主要的实质争议上获得胜诉。相较于英国、澳大利亚等采取只看是否具有严重或实质性的问题(即《美国氰胺公司案原则》),这首道门槛已是难度非常大的要求。[4]

法院的裁定表示,鉴于双方当事人已于稍早前达成了对被告输出端生成物设定“护栏”的共同认定并获法院认可,这一部分至少在诉讼的初期阶段已经解决,自然没有必要再签发诉中禁令。[5] 所以法院在此阶段的裁定仅限于输入端:

(一)禁令的性质与范围

法院表示,如要签发禁令,首先自然必须明确此禁令的性质和范围。然而这两者从诉讼开始就始终不断改变,难以确定。首先,即使在开始的阶段,原告便无法指明其请求“禁止被告未来训练人工智能的模型”是否仅限于目前已开发的模型抑或还包括目前正在开发中的模型。这两者之间会有非常显著的差别,因为关系到是否只要求被告对于已经公开推出(发表)的产品版本重新训练抑或还要求被告必须对正在开发的新版语料库全部重新建构,后者可能会导致难以预估的庞大支出。

其次,究竟有哪些歌词应在被禁止使用之列始终含糊不清。原告在其证据 A 列出的 500 首歌曲清单显然仅是“例示说明且并非全面”(illustrative and non-exhaustive),因为共同原告确认了其请求的禁令应及于“所有出版商的作品”,意味着不是“闭环”而是“开放性”的主张,可能涵盖了不计其数的乐曲歌词,也表示如果法院给出禁令,势将对被告造成极大的成本负担,甚至影响到整个人工智能相关应用与产业的后续发展。由于法院在取舍是否要签发禁制令时的一个重要考量因素是平衡对当事人造成的负担,这一点明显对法院的最终裁定产生了重大的影响。

(二)无可弥补的损害与最适当救济

与上述关联的另一要件,是共同原告必须举证如不签发禁令将遭到无可弥补的损害(irreparable damage),即经济(金钱)上的损害赔偿不足以救济其所受损害。对此,共同原告主张,被告对其拥有、受著作权保护的歌词从事未经许可的使用已侵蚀其作品的价值,破坏相关许可市场以及共同原告同其他人工智能开发者从事进一步许可协商的地位。然而这却反而让法院认为,共同原告主张的损害是可以通过损害赔偿获得救济,从而没有签发禁令的基础和必要。共同原告另主张被告的使用将对其商誉构成无法弥补的损害。法院则认为,这其中绝大部分是属于“输出端”的问题,即通过被告系统产出的生成物是否会产生对共同原告的商誉造成不良影响(例如不是原词曲作者想要创作的表现等等)。但是原告未能举证被告“训练”其系统(输入端)究竟会对其商誉产生如何无法弥补的损害。

(三)具体的损害内涵

关于原告指称,被告破坏了相关的许可市场并对其未来从事协商的地位产生了不利影响,牵涉的是与市场相关的损害(market-related harm)。此主张其实在暗示,虽然人工智能是到 2022 年年底才突然以迅雷之势席卷市场, 引起各界的兴趣和关注,但仅在两年之间已单独形成了一个新兴的知识产权许可市场。法院显然没有多做讨论就接受了共同原告的这个“暗示”或“诱饵”,并在裁定书中用相当的篇幅来阐述。法院认为,共同原告提出的多个书面举证几乎全是自我宣示,且内容相互重叠,未指出以共同原告的歌词作品训练被告的 Claude 人工智能系统是否真会影响,更遑论如何降减了共同原告任何作品的价值,也未能显示该系统又如何具体影响到了共同原告与其他歌词作者(包括新进作者或既有的歌词聚合者等)的许可协商地位,因此完全未采纳原告方的举证。

二、OpenAI 公司著作侵权案

在输出端方面,一个引起了高度关注的诉讼,是以《纽约时报》等新闻媒体公司诉微软公司和 OpenAI 公司为代表的 3 个著作侵权案(简称“纽约报纸侵权”案,New York Newspaper Cases)。[6] 由于在此之前还有 9 个指控人工智能侵权的类似案件,美国联邦多重地区诉讼司法委员会(U.S. Judicial Panel on Multidistrict Litigation,简称 JPML)[7] 于 2025年 4 月 3 日基于诉讼经济和效率的考量,裁定将这 12 宗具有共同案情事实、被告和争议点的案件一并移送纽约州南区联邦地区法院统筹审理,案名也改称“OpenAI 著作侵权”案。[8] 必须指出,固然这些案件的案情的确有不少类似之处,但各个原告的具体主张并不一致。有的是针对人工智能系统在输入端的“训练”认为其构成侵权,有的则聚焦输出端的生成物认为其构成侵权,还有的仅主张对作者著作权管理信息(copyright management information,简称 CMI)构成侵害,也有的连带主张商标侵权和不正当竞争等。此外,不在纽约州联邦法院起诉的原告基于诉讼不便等理由也反对合并审理,不过这些主张都未获支持,仍然裁定移转并审。

就在这个并审裁定出台前,纽约州南区联邦地区法院已对原始的 3 个案件给出了是否准许进入审前发现程序(discovery,或证据开示)阶段以及取证范围的裁定,对原告的 6 项主张大部分支持、小部分驳回。[9] 由于这 3 宗诉讼的指控都是针对输出端的生成物,因此原告方面没有向法院请求签发禁令。

(一)直接侵权时段

被告主张,由于著作侵权的追诉时效期间为 3 年,因此从原告(新闻媒体)于 2023 年正式起诉的当日倒推,原告只能主张 2020 年以后发生的争议。法院没有接受,表示在 2020 年之前关于被告人工智能产品的报道可谓凤毛麟角,即使偶有提及,被告未能指出有哪些事实或情况足以让原告在当时就应当或能够知悉其中有潜在的侵权问题。[10]

被告另外主张,原告《纽约时报》等为“经验丰富的出版商”(sophisticated publisher), 一旦应当知悉有其所宣称的侵权行为时便应当立即采取维权行动。法院也没有接受,表示被告无法确立原告事实上已经知悉,况且其上级法院 —— 联邦第二巡回上诉法院已表明了不接受以“精明权利人”作为推定当事人在主观上构成拟制知悉(constructive knowledge)的理论基础。

(二)辅助、代理和诱使侵权责任

法院认为,原告在起诉书当中提供的大量 “广泛公开”证据显示,被告 ChatGPT 人工智能系统的生成结果对指称的涉嫌侵权产生了重大或实质促进作用(material contribution)。 不仅于此,被告对其使用者的侵权行为很可能实际知悉,或至少构成拟制知悉,因为被告在相当程度上必须依赖受著作权保护的作品,因此侵权已成为被告运营模式的核心。

被告对此抗辩,其人工智能系统产品和操作属于联邦最高法院在 1984 年“索尼录像带”案(Sony Betamax case)[11] 所揭示的“相当程度为非侵权性使用”(substantial noninfringing use)例外,应构成合理使用,但没有获得法院的支持。法院认为这两者没有可比性,因为:(1)前案是对已经进入庭审阶段的诉讼给予迳行判决(summary judgment)与审后的处置,本案仅涉及审前裁定是否应驳回原告的起诉(在概念上类似“立案”);(2)前案完全不涉及是否对使用者有诱使侵权的问题,本案的审理将着重于对此要件的举证和分析;(3)前案属于对产品的单次购买或交易,本案则牵涉被告与其终端使用者之间的“持续关系”(ongoing relationship);以及(4)前案的产品(录像放映机和录像带)不牵涉“挪用”(appropriating)和“摄取”(ingesting)受到著作权保护的既有作品,本案则恰是完全关系到刻意以此做为产品(或服务)基础所引发的纠纷。

(三)著作权管理信息

对于原告在这方面的主张,法院从两个部分分别裁定。在程序上,法院首先确认了原告具有做此主张的诉讼资格(standing), 因为这些新闻媒体已提出了足够扎实的举证,显示被告符合《千禧年数字版权法》(Digital Millennium Copyright Act, 简称DMCA)第 1201 条第(b)款规定的要件,即被告知悉或有合理基础应知悉其行为“将诱使、成就、促进或掩饰”(induce, enable, facilitate, or conceal)著作侵权行为,显示对下游或后续侵权的顾虑的确与违反著作权管理信息相互关联。不仅如此,原告还指称被告移除了著作权管理信息以掩饰其自身对原告的直接侵权行为、促进和促成了其终端使用者的侵权、把使用者从原告的网站引走,从而导致向原告订阅和许可的收益下跌。法院认为这都符合了法定的适格要求。

不过在这部分的实体争议上,法院则认为,三个原始案件的原告方都未能从其初步举证指出被告真正移除了其作品的著作权管理信息、被告知悉其相关信息的移除将导致发生侵权、或被告散布(发行)了原告作品的复制件。例如,原告指称被告微软公司与 OpenAI 公司建立了合作伙伴关系共同开发若干人工智能系统工具以及 OpenAI 公司通过微软公司提供的云计算系统来训练其模型等与微软公司移除了著作权管理信息的指控之间实在没有任何的关系;原告认为共同被告通过“大语言模型”(large language model,简称LLM)把其作品予以“反刍”即构成了对其复制件的散布(发行),但却未能指证该等“反刍”生成物就是原告的作品、作品复制件或者与其作品实质近似。

(四)不正当竞争及窃取

原告认为,被告未经其许可使用其作品从事“大语言模型”的训练,再由该系统模型生成与原告发行的内容与类型一般相当的文本,实际上已与原告形成了直接的竞争关系并用“搭便车”(free ride)的方式窃取(misappropriate)原告刊出,具有时间敏感性的内容。被告则抗辩,原告在这方面关于适用法院所在地州法或当地普通法(司法判决前例)的主张已被属于联邦层级的《著作权法》第 301 条第(a)款完全取代或先占(preempt), 即《先占条款》。[12] 联邦地区法院在这个部分支持了被告的立场,表示绝大部分原属于普通法对创作构成民事窃取的主张已被联邦《著作权法》完全取代,且原告未能指证该法《先占条款》的例外有哪些适用于其在这部分的主张。

(五)商标淡化

原告主张,被告对其具有高度显著性的驰名商标从事了未经许可的使用,包括在其生成物中使用“质量较低和不正确的写作”,如人工智能系统经常发生的“幻觉”(hallucination) 与造假等,导致淡化(稀释)了原告的商标质量。被告则抗辩,构成商标淡化的前提是原告的商标已达到了“驰名商标”的位阶或程度,但原告的起诉书未能提供足够证据显示已符合此一要件。法院认为,原告方面已提出对其商标性质与范围的详细和事实性描述,包括广泛的流通、外界的认知、本身的成就和消费者的订阅等,已足以建立其商标符合法规定义的“驰名”。

(六)节录内容侵权问题

三宗原始案件中的一名原告调查报道中心在起诉书中一并主张,被告人工智能系统将原告的作品先从事“反刍”(regurgitation),然后以“摘要”或“节录”(abridgment)的方式呈现,已构成了直接侵权。被告则抗辩,其系统生成的“摘要”或“节录”与原告作品并不构成实质近似,也根本没有侵权的问题。法院在审视相关的提证后,认为没有构成实质近似的问题,因此裁定不容许这个部分进入到后续的实质发现(证据开示)与庭审程序。法院表示,指称的“摘录”实际上无非是对原告报道内容当中的特定事实给予更详尽的摘要,通常以分项条列的形式呈现。从风格、基调、长度和文句结构等各方面以观,无论是质或量,此种呈现都和原告的报道文章相当不同,因此不与后者构成实质近似。

三、结论:举证困境与裁判挑战

虽然这两个指标性的案件目前都还在诉讼的初期阶段,从法院的裁定已可大致看到,涉及使用人工智能系统或工具的著作侵权案件,无论在“输入端”关于机器模型从事大规模数据集的“训练”抑或“输出端”关于该系统生成物的潜在侵权,对双方当事人所能提出的主张和举证,以及对法官要如何检验这些证据、又应定义其中的关键争点与裁判范围,都形成了巨大的挑战。这两宗案件的发展无疑会对其他已经或未来准备提出的其他相类似案件产生巨大的影响。从两个法院的裁定,至少可对诉讼策略提供下列的参考。

(一)侵权与损害范围的界定

对权利人而言,从一开始就面临了严峻的举证困境。由于人工智能系统动辄使用几十亿或更多的海量数据集从事“训练”,原告的作品相对而言如同“沧海一粟”,确认“唯一指向”面临着极大难度。一个方法是本文两案原告采取的“反向举证”,直接以原告(权利人)的姓名和/或作品内容作为提示词(prompt),然后设法“引蛇出洞”,佐证被告的系统未经许可复制了原告的作品。但两个案件对此已经出现了不同的法院初步认定,显示此种举证并非十拿九稳。即使能举证获得了法院的支持,如原告想进一步请求法院签发禁令,任何审慎的法官恐怕都会相当地踌躇:是否因个别作品可能有潜在的侵权问题就要“一竿子打翻整条船”,全面禁止涉案人工智能系统的操作?如果此门一开,对整个领域的后续创新研发以及运营会造成如何的影响?如果只针对原告指称的侵权部分给予范围有限的禁令,其侵权与损害的范围又应如何界定?实效如何?由于人工智能系统只要稍做调整就可以实现一定程度的规避,这是否会导致此种非全面性的禁令实际上难以执行到位?

(二)抗辩的有限转圜

对被告而言,也是从一开始就面临了高度的困难和风险,因为唯一能抗辩的就是合理使用。但在普通法系,合理使用属于积极抗辩(affirmative defense),必须以承认对原告作品从事了未经许可的使用(如复制、信息网络传播等等)为前提,只是因为符合法律容许的特殊例外,如法院支持,才可获得免责对待。过去只要被告能举证其版本已经产生了某种“转化”或“转型”(transformation),哪怕复制的比例相当高,依然有可能被视为合理使用。但是美国联邦最高法院于 2023 年出台的一个判决已大幅限缩了被告拟以此作为转圜的空间。[13] 目前关于是否具备足够“转化度”的最新检测要求和标准是:(1)必须只针对特定、被指控的侵权行为予以审视,不能凭空从整体美学感知去推敲是否具有转化性;(2)“转化性”是程度问题,且必须为著作权利人预留从事改编或其他派生或演绎的空间,因此对原作品的后续创作或生成在目的和性质上都必须超越此空间或范围;(3)还需考量是否从事商业性的使用。虽然商业性使用的本身并不必然构成侵权或导致合理使用无法成立,但终究还需考量透过该使用行为是否可让后续的创作或生成达到更进一步的目的或产生不同的性质;(4)仅让后续的创作或生成出现“新的表达、意义 或信息”还不足以构成符合转化性的合理使用;(5)后续创作或生成的主观意图为何,与是否构成合理使用毫不相关;以及(6)构成合理使用必须能“合理化”(justification),即,为了达到更进一步的目的,“二次创作”对原作品从事复制有“合理的必要性”(reasonably necessary)。如果原作品与后续的创作之间都是为了达到相同或非常接近的目的,或者后续创作或生成的广为散布或传播会导致对原作品或获得许可从事改编等派生、演绎作品产生替代作用时,就需要提出更为令人信服的独立理由(compelling independent justification)才能合理化其未经许可的使用。[14]

(三)法院的两难裁判

从法院在本文两个案件裁定的论理叙事过程可明显观察到,法院即使认为权利人受到了侵害,想在诉前或诉中给予当事人某种救济,却始终难以下笔。如果禁令订出的范围太过广泛,势将产生“寒蝉效应”,让相关的创新研发却步不前,会不当地干扰整个市场发展;反之,如范围订得过于狭窄,只会疏漏百出,难以落实,让禁令在实质上成为废纸,毫无意义。即使进入到了实质审理的阶段,如何权衡其中的侵权与合理使用,如何确定具体的损害究竟当如何计算注定会有极大的挑战性。无论如何,这两宗案件的裁判势将对未来的相关诉讼产生 很大的引领作用。

在许多媒体在这两个裁定(尤其在“康科德音乐集团”案)出台后就立刻下断语,预言哪方当事人获得了“巨大的胜利”之际,实际的状况却远非如此。表面上一方当事人在这个阶段获得了貌似对其有利的裁定时,却也很可能同时埋下了日后会遭到大麻烦的隐患。赢得一场战役从不表示也会赢得最终的战争。福祸相倚,总须引以为戒。

当无数的学者专家们竞相议论究竟对人工智能系统工具的训练过程和生成物要如何看待、如何规制、是否要赋权等实质问题时,真正的诉讼纠纷却面临着各种程序上的举证门槛困境,困扰着各方当事人和执笔判决的法官, 这恐怕才是当下各界真正需要检视和关注的难关所在。

来源:版权理论与实务

编辑:Sharon