计算机行业:浅析AI大模型训练数据来源与版权挑战
识别风险,发现价值 请务必阅读末页的免责声明 1 / 38 [Table_Page] 深度分析|计算机 证券研究报告 [Table_Title] 计算机行业 浅析 AI 大模型训练数据来源与版权挑战 [Table_Summary] 核心观点: AI 大模型训练数据来源广泛。在算力可获得性提升以及算法同质化趋势下,训练数据成为影响大模型性能的重要因素。区别于传统 AI 模型,大语言模型通常使用公共文本数据集的混合体作为预训练语料库,而多模态大模型则需要大规模的图片和音视频等多模态数据。这些训练数据的来源广泛,包含公开渠道、企业自研、直接购买与合作交换等。 内容持有者对 AI 厂商态度各异。部分内容持有者针对 AI 平台提出了各种维权诉求,已有数十起版权诉讼正在进行中。同时,另一部分内容持有者则选择了授权合作道路。版权纠纷实质上是商业利益之争,内容持有者具体选择诉讼还是合作取决于其商业模式、内容独特性和行业结构等因素。作家和艺术家们普遍倾向于抵制 AI 公司并控诉其侵权行为,而新闻媒体在版权斗争中则难以形成统一阵线。 确保训练数据的合法来源对于 AIGC 发展非常关键。我们在去年的《从 Adobe 看 AIGC 如何重塑创意工具行业》报告中提到,训练数据的版权问题是 AIGC 商业化落地的重要阻碍。因此,只有解决了这一问题,才能在确保合法的前提下,推动生成式 AI 的商业落地。从 2023 年下半年开始,AI 数据版权诉讼开始进入白热化阶段,而内容合作则于 2024 年上半年加速,表明过去一年中版权问题已经成为 AI 领域的焦点,并且相关法律问题正在被逐步揭示与尝试解决。 2024 年有望成为 AI 训练数据版权之争的关键年。关于 AI 训练数据版权诉讼,国内外尚未达成判例,重点案例的判决将对未来行业发展产生重要意义,需持续关注。同时,越来越多的公司正在明确其立场,显示出行业整体对于训练数据版权问题重视程度的提升。2024 年有望成为 AI 数据版权之争的关键年,将会有更多诉讼、谈判和合作展开,但未来授权合作或快于法律变革与监管介入。 当内容合作商对于训练数据版权的立场明确后,大模型研发的不确定性将被消除,应用发展也将进一步加速。训练数据作为成本项,与 下游应用的商业化推广密切相关,二者相辅相成。若数据合作显著加速,这将标志着 AIGC 应用即将迎来商业化落地的飞跃。 投资建议:在众多种类应用中,创意工具软件与办公软件更为受益,标 的 方 面 , 建 议 关 注 万 兴 科 技 ( 300624.SZ ) 、 美 图 公 司(01357.HK,广发传媒覆盖)、金山办公(688111.SH)等。 风险提示:内容价值难以准确量化;行业竞争加剧;数据侵权阻碍下游应用发展。 [Table_Grade] 行业评级 买入 前次评级 买入 报告日期 2024-07-19 [Table_PicQuote] 相对市场表现 [Table_Author] 分析师: 刘雪峰 SAC 执证号:S0260514030002 SFC CE No. BNX004 021-38003675 gfliuxuefeng@gf.com.cn [Table_DocReport] 相关研究: 计算机行业 2024 年中期策略:下半年仍以结构性机会为主,基本面驱动是基础 2024-06-28 计算机行业:GPT-4o 发布,距离 AI 应用普及又近一步 2024-05-14 计算机行业:从 Adobe 看AIGC 如何重塑创意工具行业 2023-12-27 [Table_Contacts] 联系人: 戴亚敏 daiyamin@gf.com.cn -40%-31%-22%-14%-5%4%07/2309/2312/2302/2405/2407/24计算机沪深300 识别风险,发现价值 请务必阅读末页的免责声明 2 / 38 [Table_PageText] 深度分析|计算机 [Table_impcom] 重点公司估值和财务分析表 股票简称 股票代码 货币 最新 最近 评级 合理价值 EPS(元) PE(x) EV/EBITDA(x) ROE(%) 收盘价 报告日期 (元/股) 2024E 2025E 2024E 2025E 2024E 2025E 2024E 2025E 万兴科技 300624.SZ CNY 48.53 2024/04/29 增持 112.83 0.77 1.03 63.03 47.12 50.72 39.42 7.40 9.00 金山办公 688111.SH CNY 199.20 2024/04/24 增持 388.66 3.52 4.56 56.59 43.68 50.85 39.82 14.00 15.30 数据来源:Wind、广发证券发展研究中心 备注:表中估值指标按照最新收盘价计算 识别风险,发现价值 请务必阅读末页的免责声明 3 / 38 [Table_PageText] 深度分析|计算机 目录索引 投资要点 ............................................................................................................................. 5 一、大模型常使用文本图片视频等公共数据集混合体作为预训练语料库 ........................... 8 (一)数据成为影响 AI 大模型效果的重要差异化环节 ............................................. 8 (二)AI 大模型训练数据来源分类 .......................................................................... 12 (三)AI 大模型训练数据获取途径 .......................................................................... 19 二、AI 大模型训练面临的数据版权挑战 .......................................................................... 20 (一)训练数据需求下,数据版权诉讼激增 ............................................................ 20 (二)授权合作,内容持有者的新道路 ................................................................... 23 (三)诉讼或合作?内容持有者面临的选择、机会
[广发证券]:计算机行业:浅析AI大模型训练数据来源与版权挑战,点击即可下载。报告格式为PDF,大小9.37M,页数38页,欢迎下载。
