大模型时代的版权边界在哪里

AI大模型时代开启，应如何看待内容版权保护和人工智能技术之间的关系？中国科学院虚拟经济与数据科学研究中心研究组成员、中科数字大脑研究院院长刘锋认为，著作权制度的根本价值在于维护个人利益与公共利益之间的平衡。随着生成式AI等技术的发展，数据要素已成为最具时代特征的生产要素，数据对提高人工智能和数字化技术能力的作用正不断凸显。但人工智能发展背后，数据的利用和分配涉及到多方面复杂问题，需要综合考虑技术、法律、伦理等多个维度来找到合理使用的平衡点。总体来说，生成式AI模型与知识产权之间呈现出一种博弈的过程。

——————————

近期，美国《纽约时报》在纽约南区法院向OpenAI及其投资人微软公司提起侵犯版权诉讼，指控二者未经许可使用其数百万篇文章以训练人工智能模型，而这些聊天机器人现在与该新闻机构形成竞争，成为可靠的信息来源。

诉讼未明确提出具体的赔偿金额要求，但称被告应对与“非法复制和使用《纽约时报》独特有价值的作品”相关的“数十亿美元的法定和实际损害”负责，还要求被告销毁使用《纽约时报》版权材料的所有AI模型和训练数据。

在投诉中《纽约时报》表示曾于2023年4月与微软和OpenAI进行了接触，提出了对其知识产权使用的担忧，并探讨“友好解决”的可能性，但谈判未产生解决方案。当地时间1月8日，OpenAI首次针对《纽约时报》提起的诉讼进行了正式回应，称《纽约时报》并未讲述完整的故事，其诉讼毫无根据。尽管如此，公司仍然希望与其建立建设性的合作伙伴关系，并尊重其悠久的历史。

1月18日，OpenAI的创始人山姆·奥尔特曼（Sam Altman）在瑞士达沃斯世界经济论坛上也对外表示，双方在起诉消息曝光前曾进行了“富有成效的谈判”，对《纽约时报》的起诉感到惊讶。他指出，OpenAI希望以“大量资金”向该内容出版社支付费用，以在ChatGPT中展示他们的内容，但实际上并不需要在他们的数据上进行人工智能训练。“我认为人们不太理解这一点。任何一个特定的训练源对我们的影响并不是那么大。”

《纽约时报》是全球首家起诉两家公司侵犯其文字作品版权的美国大型媒体机构。此次诉讼拉开了未经授权使用已发布作品训练人工智能技术的“法律战役”新篇章，或将成为影响AIGC（生成式人工智能）领域走向的重大事件。

业内争议不断版权诉讼频发

这场诉讼引起了业内关于内容创作者与人工智能开发者之间权益平衡的讨论。支持者和反对者各执一词，有人认为知识产权至上，OpenAI侵犯了《纽约时报》的劳动成果，甚至可能威胁到新闻业的独立性；也有人认为，大模型可以像人一样免费学习，侵权的关键在于作品的输出内容，而非输入内容。

美国数字广告局（Digital Content Next）首席执行官杰森·金特（Jason Kint）在社交媒体X（原推特）上指出《纽约时报》理由充分，其中包括《纽约时报》的内容是OpenAI用来训练大模型的关键来源，以及《纽约时报》提供的100多个GPT-4输出内容和《纽约时报》报道文章高度相似的例子。

美国作家、科技评论家丹尼尔·杰弗里斯（Daniel Jeffries）则提出相反观点，认为要求每个人为训练数据支付授权费是不切实际的，这也不是美国版权法所谈论的关键，“版权法的宗旨是防止人们完全复制或近似复制内容，并为了商业利益将其发布。”

他还声称，GPT精确复制《纽约时报》内容是人为操纵的结果。“没有人能用他们所谓的提示重现那个逐字的输出……可能是程序员通过API特意指令它寻找某篇特定的文章，并让它输出文章的一部分……如果我让它去找一篇《纽约时报》的文章并输出，那么责任在我，而不是这个模型。况且这个功能完全不需要机器学习技术，十几年前的编程库就能做到。”

部分新闻机构选择与科技企业合作。去年7月，美联社与OpenAI达成协议，授权OpenAI使用美联社部分新闻存档，以探索生成式AI在新闻领域的应用。12月，德国大型媒体公司阿克塞尔·施普林格（Axel Springer）与OpenAI建立全球合作伙伴关系，根据协议，ChatGPT用户有权限阅读该出版社旗下媒体所创作的精选内容，同时其内容将被用于推进大语言模型的训练。《华尔街日报》新闻集团则正在考虑向AI开发人员收取使用其中内容的费用。

当地时间1月4日，OpenAI的知识产权和内容首席汤姆·鲁宾（Tom Rubin）在接受采访时表示，公司近期与数十家出版商展开了有关许可协议的谈判，“我们正处于多场谈判中，正在与多家出版商进行讨论。他们十分活跃积极，这些谈判进展良好。”

与此相对应，多家媒体在其网站上阻止OpenAI扫描平台内容。根据《卫报》报道，自《纽约时报》后，CNN、路透社、《芝加哥论坛报》（The Chicago Tribune）、《堪培拉时报》（The Canberra Times）、《纽卡斯尔先驱报》（The Newcastle Herald）等媒体纷纷宣布阻止该行为。其中，法国广播电台（Radio France）表示，阻止OpenAI机器人是为了避免“内容未经授权就被掠夺”。

事实上，生成式AI面临着大量侵犯版权的指控。

2023年7月10日，美国喜剧演员和作家萨拉·希尔弗曼（Sarah Silverman）以及另外两名作家起诉Meta和OpenAI，指控其侵犯版权。9月19日，美国作家协会以及包括《权力的游戏》原著作者乔治·R·R·马丁（George R.R. Martin）在内的17位美国著名作家对OpenAI发起集体诉讼，称OpenAI在未经授权的情况下使用原告作家的版权作品训练其大语言模型。12月，多名普利策奖得主起诉OpenAI和微软滥用自己作品训练大模型，指出这样的行为无疑是在“刮取”作家们的作品和其他受版权保护的材料。他们希望获得经济赔偿，并要求这些公司停止侵犯作家们的版权。

据不完全统计，自2022年11月至2023年10月，仅美国加州北区法院便已经受理了10起版权人起诉StabilityAI、OpenAI、Meta、Alphabet等AIGC研发企业未经授权，利用版权作品进行模型训练的案件。

传统法律框架下的难题

这场由《纽约时报》对OpenAI的诉讼引发的知识产权之争，不仅仅在美国引起了激烈的讨论，更是揭示了全球范围内AI与内容创作者之间权益边界的普遍性问题。在我国，法律层面尚未就生成式AI对版权作品的使用作出明确规定，大模型在知识产权的使用和保护方面引发的讨论也愈演愈烈。

作为自然语言处理系统，大型语言模型（LLM）通过大量文本语料库进行训练，然后根据它所学到的内容来回答问题或生成文本，其学习的能力很大程度上依赖于海量数据。当下关于生成式AI领域的版权纠纷，有许多有关使用未经授权的版权作品进行大模型训练的行为，且有迹象显示传统的版权模式在大模型时代可能会失灵。

“按照我国法律来判断，大模型在训练阶段对于数据的使用是否属于版权侵权，依旧存在争议，很难给出确定性的结论。”中国政法大学知识产权研究中心特约研究员、北京嘉潍律师事务所律师赵占领指出，一般而言大模型训练阶段包含三种行为：获取、存储、处理。“获取行为类似于线上浏览网页和线下阅读书籍，如果只是接触不存在后续的传播利用，是不构成侵权的。”同时他强调，在获取阶段需要关注获取合法性问题，“比如对方实施技术保护措施，但你通过规避这些措施去抓取服务器里的内容，是可能构成侵权的。”

赵占领指出，按照著作权法，大模型训练的存储阶段主要会涉及是否侵犯权利人的复制权。“但大模型训练不是公开的外部使用，从传统的角度来讲不好发现，也很难判定到底造成了什么损失，国内也没有明确的立法和相关的司法判例，很难给出明确的结论。因为侵犯复制权一般都是复制的同时进行传播和利用。”

对于处理阶段，腾讯研究院高级研究员朱开鑫曾表示，模型内部的内容分析处理行为对应著作权法上的何种权利存在疑问，且理论界和实务界目前尚未有明确结论。

朱开鑫指出，有观点认为“作品处理”行为落入著作权法中“改编权”的规制范畴，但所谓的改编权是指改编既有作品形成新作品的行为，如果是对作品数据进行分析处理，并生成包含一定模式、趋势以及相关性的参数，这一过程不涉及新作品的形成，明显难以契合“改编权”的要求。还有观点认为，上述行为不属于版权规制的权利范畴。著作权法遵循“思想表达二分法”的基本逻辑，强调“不保护自然人的思想，只保护自然人对于思想的外在表达”。GPT模型通过不断学习海量作品中不同文字之间排列组合的概率和规律，然后内化为自身的模型参数，对于作品仅仅是进行统计学意义上文字组合概率的学习，不是为了使用和展示作品中的表达性内容，因此不属于著作权法意义上的作品利用行为。

“目前我国在法律层面上，在生成式AI使用版权作品等方面没有具体规定，但存在部门规章层面的规定。”北京大成律师事务所知识产权与科技创新组联合负责人肖飒指出，我国对生成式AI使用作品的规范主要集中在《生成式人工智能服务管理暂行办法》，其中第七条规定，生成式人工智能服务提供者应当依法开展预训练、优化训练等训练数据处理活动；涉及知识产权的，不得侵害他人依法享有的知识产权。其特点在于对AI训练使用版权作品较为开放，只要不侵害版权作品复制权、信息网络传播权等著作权法上规定的权利即可。

值得一提的是，我国著作权法第二十四条规定了“合理使用条款”，在特定的条件下，法律允许他人自由使用有著作权的作品，而不必征得权利人许可，不向其支付报酬的合法行为。而判定是否属于“特定的条件”，其中一个重要标准是，是否用于营利目的。

大模型训练是否能适用“特定的条件”，被归入“合理使用范畴”？肖飒认为，生成式AI抓取内容显然属于商业营利目的，故无法构成合理使用。合理使用制度之所以限制著作权，是因为著作权本身即是法律赋予作者特殊的垄断权利，但不能因其而阻碍人们学习与社会发展。根据目前法律来看，生成式AI抓取虽不构成合理使用，但在未来随着其重要性逐渐攀升，相应法规可能会有所变化。

肖飒观察到国内目前虽然还未爆发大型矛盾，但不难看出在小的内容创作者与AI服务提供者之间已存在不少摩擦。“生成式AI本身运行机制较为复杂，想要证明其侵权确实存在很大的困难，这在一定程度上加大了被侵权者的维权成本。”她认为，目前内容生产方所依赖的法律保护依旧是著作权法，然而著作权法还未随AI发展而更新，因此内容生产方若想保护自己的作品不被AI使用，最好的办法还是依据著作权法第四十九条，对其发布在公共平台的作品采取一定的技术手段进行保护，同时在相关文本中明确表示其内容不得被用于AI训练。

寻找版权和技术的新平衡

AI大模型时代开启，应如何看待内容版权保护和人工智能技术之间的关系？

在肖飒看来，目前版权与生成式AI发展是相互制约的。“版权制度实际上就是通过赋予作者特殊垄断地位，维护与鼓励其智慧创造。为促进生成式AI发展，版权制度可能需要适当让步，在大数据时代中寻找一个新的平衡。而从法律层面上来看，平衡的方式可能是出台相关领域的专门立法，从而确立独特的标准。”

中国科学院虚拟经济与数据科学研究中心研究组成员、中科数字大脑研究院院长刘锋认为，著作权制度的根本价值在于维护个人利益与公共利益之间的平衡。随着生成式AI等技术的发展，数据要素已成为最具时代特征的生产要素，数据对提高人工智能和数字化技术能力的作用正不断凸显。但人工智能发展背后，数据的利用和分配涉及到多方面复杂问题，需要综合考虑技术、法律、伦理等多个维度来找到合理使用的平衡点。总体来说，生成式AI模型与知识产权之间呈现出一种博弈的过程。

北京师范大学新闻传播学院学术委员会主任、教授，北京师范大学传播创新与未来媒体实验平台主任喻国明进一步解释道，生成式AI的技术原理是结合大量语料数据，构建大语言模型，以ChatGPT为例，通过这种方式可使其具备高于人类平均水准的互动聊天能力，这些语料数据以千亿级为单位，当前从事生成式AI的创业公司显然不具备完全购买语料数据的能力，因此很容易产生知识产权纠纷。

为此，他在几年前便提出了微版权的概念。微版权是指，在技术发展过程中衡量语料数据的价值。比如，对于学术论文而言，不同论文的数据（下载量、引用量等）不同，应当具备不同的价值，而非采用统一、静态的价值权重进行衡量。“版权价值并非恒定不变，应当根据版权主体生态位的态势构建动态浮动的价值权重”。

喻国明指出，微版权将结合语料价值，对版权价值进行细分，平衡了版权所有方和版权使用方之间的关系，赋予版权资源更大的自由度和灵活性。更重要的是，能减轻生成式AI公司的支付成本与侵权风险。

针对此类问题，北京师范大学新闻传播学院、计算传播学研究中心副教授，杭州市滨江区浙工大网络空间安全创新研究院特聘研究员闵勇认为，《纽约时报》起诉OpenAI的案件一定程度上唤醒了国内AI企业关于大模型训练数据的版权意识。生成式AI的技术发展是一个不断自我进化的过程，随着技术的发展，AIGC研发主体与版权方最终应找到一种互惠互利的合作方式。

与此同时，多位业内人士对记者表示，确立版权保护原则是版权生态持续、有序、动态、平衡发展的前提。加强知识产权保护可以提升企业创新能力和企业研发投入，也对版权生态下的创作者、科研人员等诸多处于不同领域的从业人员具有激励创新和提升活力的作用。

事实上，监管与发展，并不是一个二元对立的选择。在很长一段时间内，我国在知识版权和AI技术的关系问题上，也呈现出一种摸着石头过河的状态。闵勇建议，为避免版权方与AIGC研发主体之间的知识产权摩擦，我国政府应进一步关注开源数据集的开发，鼓励受财政支持的科研单位、文化单位开放训练数据，加强与社会力量的协同。

在任何一个领域，监督都是有必要的，在人工智能这个领域也是如此。不过，针对处于起步阶段的新兴技术产业，闵勇表示，法律监管应当在积极鼓励发展创新的基础上，划定发展红线，尽可能为生成式AI提供相对开放的发展空间。“版权保护并不是限制产业发展，而是引导和保障相关产业的良性发展”。