人工智能研究报告全文
第1页 OECD 人工智能研究报告全文 目录 引言 第一章 人工智能数据挖掘行为解构 数据挖掘的法定构成要件:数据收集、数据预处理与数据存储 第二章 人工智能数据挖掘主体权责生态 2.1 学术研究机构基于科研目的的数据挖掘应用 2.2 人工智能数据聚合服务商的第三方数据供给行为 2.3 数据爬取对知识产权权利人(创作者/所有权人)的实质影响 第三章 数据爬取法律争议焦点及司法实践动态 3.1 涉数据爬取的知识产权侵权客体范围 3.2 版权作品数据爬取的侵权认定争议 3.3 生成物新型侵权诉由 第四章 政策规制路径的初步考量 4.1 构建自愿行为守则 4.2 授权许可机制的创新探索 4.3 标准化合同条款的规制价值 4.4 对知识产权及数据挖掘的认知提升 第2页 内容摘要 人工智能(AI),尤其是生成式 AI 的迅猛发展,为知识产权(IP)领域带来了复杂的挑战。AI 模型的开发、测试和验证高度依赖大规模数据集,导致对训练数据的需求激增。一种广泛采用的方法是“数据抓取”,本报告特指从第三方网站、数据库或社交媒体平台自动提取信息的行为。当数据抓取未经权利人同意或未支付报酬时,会直接影响知识产权保护作品的创作者和所有者。此类活动可能涉及多种知识产权及相关权利,包括版权、数据库权利、商标权、商业秘密、肖像权及人格权。 围绕数据抓取的知识产权法律环境复杂且快速演变。现行知识产权法律多制定于现代AI 实践兴起之前,且不同司法管辖区存在差异,使得其适用性变得复杂。数据抓取常涉及受知识产权保护的内容,引发关于侵权、例外条款(如合理使用或文本与数据挖掘/TDM 规定)的适用性,以及遵守合同条款等问题。抓取受版权保护的材料会引发关于其收集或使用是否构成侵权的疑问。此类诉讼在全球范围内日益增多,美国、欧盟及其他地区已出现多起具有影响力的案例。此外,对 AI 生成内容(尤其是未经授权模仿个人风格、声音或外貌的输出)的担忧,正促使各方采取多样化的法律应对措施,以保护权利并防止滥用。 数据抓取已成为普遍实践,但其涵盖多种方法且缺乏普遍认可的定义。该术语常与“数据挖掘”(指通过计算过程识别模式、趋势和关联的流程)及“网络爬虫”等技术混淆。本报告指出定义不一致的问题,并提出了一个广泛的工作定义。数据抓取的流程通常包括数据收集、预处理和使用。报告分析了不同的抓取技术,并强调需要采用通用/标准术语以及对这些方法进行明确区分。 数据抓取生态系统中不同参与者的行为引发了多样的法律问题。部分参与者利用数据抓取支持研究及其他活动,这表明需要针对不同使用场景制定相应的政策工具。该生态系统主要包括研究机构和学术界、AI 数据聚合商、以及科技公司和平台运营商。研究机构和学术界常通过数据抓取收集数据用于学术和科学目的。AI 数据聚合商被指控将抓取的数据提供给第三方,往往缺乏明确的许可条款或数据来源披露,引发知识产权及其他法律问题。科技公司和平台运营商则既是数据抓取的主要目标(数据来源),本身也常是数据抓取的实践者。 为引导数据抓取在国际协调框架下走上负责任的发展路径,制定“数据抓取行为准则”、推广标准合同条款、开发标准技术工具以及提升认识倡议。若能吸纳包括权利持有人、研究人员、AI 开发者、民间社会及政策制定者在内的广泛多元利益相关方意见,此类规范将尤为有效。 • 自愿性“数据抓取行为准则”:可确立普遍适用的条款,并为 AI 生态系统中不同参与者(如 AI 数据聚合商与抓取数据使用者)提供具体指导。准则应包含标准术语以确保共同理解,可纳入监测遵守情况的机制(如注册系统),并就透明度和文档实践提出建议。最后,可包含标准合同条款。 • 标准技术工具:可帮助保护知识产权,使权利人更便捷地管理自身数据的访问权限,例如数据访问控制机制、自动化合同监控和直接支付系统。标准化工具能简化组织的合规流程,并助力权利人在多个平台上保护其权利。 • 标准合同条款:可解决与数据抓取相关的法律和运营问题。这些条款可作为可选起点,允许组织协商特定条件。其制定将受益于多利益相关方合作,并可针对不同应用场景(从非营利研究到商业应用)进行定制。 • 提升意识倡议:赋能利益相关方了解数据抓取及其法律影响,获取保护和管理自身权利的信息。这包括帮助权利人理解保护措施、教育 AI 系统用户负责任使用,以及确保 AI 数据生态系统中所有参与者明确自身角色与责任。 第3页 引言 人工智能(AI),尤其是生成式人工智能(GenAI)的兴起,正在知识产权(IP)领域引发一系列复杂问题。 知识产权法律历来通过保护创作者权益来激励创新,促成具有价值的产品、技术及其他创作成果(统称“创作成果”)的产生,为社会带来巨大福祉。尽管不同司法管辖区的法律存在差异,但其核心原则具有共性:通过授予权利人对其创作成果的特定专有权利来保障其利益。这些法律框架旨在激励创新、促进创造力,保护个人和企业开发的智力资产。 为了平衡知识产权所有者的权利保护与更广泛的社会利益,知识产权法律通常包含有限的、具体情境下的例外规定,允许第三方在特定条件下无需获得权利人许可即可使用受保护的作品。例如,部分版权法允许在满足特定要求时将受版权保护的作品用于非商业或其他有限目的。某些例外规定要求支付费用,而另一些则无需支付。此外,知识产权保护通常具有期限性,权利到期后作品即进入公共领域。 尽管各国知识产权法律存在差异,但国际条约在全球范围内促进了知识产权权利和原则的协调。这些条约包括由世界贸易组织(WTO)管理的《与贸易有关的知识产权协议》(TRIPS协议),以及由世界知识产权组织(WIPO)管理的《伯尔尼公约》、《巴黎公约》和 WIPO“互联网条约”等关键公约。这种协调确保了基本的一致性,特别是在版权和商标保护等领域(详见第 3.2 节)。 与版权和商标法不同,商业秘密法主要通过禁止未经授权的使用或披露来保护保密信息,而非授予开发者专有权利。知识产权保护涵盖各种载体和格式的材料,包括文件、软件、照片和图形作品等。部分司法管辖区还承认独特的(sui generis)权利以保护特定类型的材料。例如,欧盟(EU)设立了专门的数据库权利(欧盟,1996)。此类专门保护措施有助于应对知识产权在数字时代演变的特性。 知识产权保护被认为对全球创新做出了重大贡献,包括构成 AI 基础的要素(如通过开源或其他许可提供的受版权保护的软件)。重大突破通过开放科学出版物和开源计划得以实现,推动了语言模型的广泛应用和显著进展。例如,谷歌开发并公开发布的“词向量”(Word2Vec)技术革命性地改变了自然语言处理领域,加速了高级文本分析技术的发展(Mikolov, Chen, Corrado, & Dean, 2013)。这种融合专有创新与开放创新的多元生态系统,凸显了维护强大、有效且可预测的知识产权框架对于持续支持 AI 及其他领域创新的重要性。 尽管本文重点探讨通过数据抓取获取数据训练 AI 模型所引发的知识产权考量,但需承认 AI 与知识产权的交集贯穿于整个 AI 系统生命周期。例如,当生成式 AI 系统根据用户提示生成新内容(“AI 生成输出”)时,便引发了这些输出是否应受知识产权保护的问题。目前,许多司法管辖区要求人类参与才能获得版权保护,
[经合组织]:人工智能研究报告全文,点击即可下载。报告格式为PDF,大小2.19M,页数24页,欢迎下载。
