AI行业点评:OpenAI发布Sora模型,Google发布Gemini 1.5 Pro

本报告由中信建投证券股份有限公司在中华人民共和国(仅为本报告目的,不包括香港、澳门、台湾)提供。在遵守适用的法律法规情况下,本报告亦可能由中信建投(国际)证券有限公司在香港提供。同时请务必阅读正文之后的免责条款和声明。 证券研究报告·海外行业简评 AI 行业点评:OpenAI 发布 Sora 模型,Google 发布 Gemini 1.5 Pro 核心观点 Google 发布 Gemini 1.5 Pro,拓展上下文窗口至 1M tokens,结合研究轨迹推测 Gemini 调整了注意力计算机制,且对训练数据集做了二次采样,未来长上下文本窗口的发展预计主要依靠训练数据集的优化,关注 Google 在专有数据集领域的优势。此外,OpenAI 发布 Sora 模型,采用 DiT 架构及 NaViT,复刻 GPT 系列模型之路,存在 Scaling Laws,目前可生成 60s 内视频,后续通过数据集优化等有望进一步突破。 事件: OpenAI 发布文生视频模型 Sora,Google 发布 Gemini 1.5 Pro 北京时间 2 月 16 日,OpenAI 发布首个文生视频模型 Sora,可以直接输出长达 60 秒的视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色。同时,Google 宣布推出全新的 Gemini 1.5 AI 模型,通过新的专家混合 (MoE) 架构使 Gemini 1.5 的训练和服务更加高效。 简评 OpenAI 发布 Sora,生成视频质量较市面平均水平大幅提高 Sora 以 Open AI 过去 DaLLE 和 GPT 模型的研究为基础,同时采用 Diffusion Transformer(DiT)模型,能够一次性生成整个视频的长度,并逐步消除噪声完成视频转换。同时在一致性的保障机制上,通过一次性为模型提供多帧预测的方式,Sora 可以确保一些物体即使镜头远离也能保持不变。Sora 生成的视频在一致性方面强于此前的 Runway/Pika。但目前 Sora 的缺点表现在无法理解因果关系/难以模拟物理定律。 Google 推出 Gemini 1.5 Pro,MoE 架构+长上下文窗口 Gemini 1.5 Pro 模型采用 MoE 架构,性能与 Gemini 1.0 Ultra 类似。Gemini 1.5 Pro 上下文窗口达到 12.8 万个 token,部分开发者和企业用户可以通过 Vertex AI 和 AI Studio 的预览版尝试最多100 万个 token 的上下文窗口。在 Gemini 1.5 技术报告中,Gemini 1.5 Pro 在较短的文本长度上的性能超过了 GPT-4-Turbo,并且在100 万 token 的范围内保持了相对稳定的表现。与之对比,GPT-4 Turbo 的性能则明显下降,且无法处理超过 128,000 token 的文本。Gemini 1.5 继续强化模型向长上下文窗口发展的趋势。 维持评级 强于大市 崔世峰 cuishifeng@csc.com.cn SAC 编号:S1440521100004 SFC 编号:BUI663 许悦 xuyue@csc.com.cn SAC 编号:S1440523030001 发布日期: 2024 年 02 月 21 日 市场表现 相关研究报告 07.06.11 股权变更获准 07.03.29 增资白敬宇制药持有 30%股份 07.03.05 63%控股鼓楼宿迁人民医院 -30%-10%10%30%50%2023/2/202023/3/202023/4/202023/5/202023/6/202023/7/202023/8/202023/9/202023/10/202023/11/202023/12/202024/1/20计算机纳斯达克综指软件与服务 1 海外行业简评报告 软件与服务 请务必阅读正文之后的免责条款和声明。 Gemini 1.5 Pro 主要更新上下文窗口,结合研究轨迹推测其结合了数据集二次采样及注意力机制调整。上下文窗口相当于 LLM 的缓存,目前学界/业界扩展上下文窗口的主要方式包括 1)训练数据集的二次采样,例如符尧等1提出通过 upsampling(上采样)等方式在预训练环节强化 LLM 处理长文本的能力,可以将 LLM 的窗口拓展至 128K。;UCB 研究团队2则提出通过层次训练高效扩展上下文窗口;2)调整注意力计算机制。Yale 及 Google 团队3提出通过在不损失太多精度的情况下快速近似注意力矩阵的输出,从而实现长文本下的计算速度提升。 图 1:Gemini 1.5 Pro 实现 1M/10M 的上下文窗口 图 2:通过数据集调优可以优化模型计算的速度 数据来源:Gemini4,中信建投 数据来源:《Data Engineering for Scaling Language Models to 128K Context》,中信建投 Gemini 1.5 Pro 在长文本取回方面速度和成本不如 RAG,且受限于注意力机制,难以颠覆搜索性能。Gemini 1.5 Pro 长文本的取回在速度和成本上较 RAG 不经济。随文本长度提升,召回率持续下降,仅为60~80%左右,对 RAG 替代有限。此外,在准确度层面与 RAG 存在差距,在速度上 Elasticsearch 1 个节点/1 个分片下最大索引吞吐量可达 220K,是当前 Gemini 1.5 Pro 的 22x。因此 Gemini 1.5 Pro 本身在计算、索引等方面的能力仍然弱于专业的搜索引擎。且受注意力机制限制,长文本的计算成本和复杂度指数级提升,架构不大幅改变的情况下很难颠覆搜索性能。 图 3:Gemini Pro 1.5 与 Gemini 1.0+RAG 的成本对比 图 4:Gemini 1.5 在长文本下的召回率 数据来源:《Why Gemini 1.5 (and other large context models) are 数据来源:Gemini5,中信建投 1 《Data Engineering for Scaling Language Models to 128K Context》。 2 《World Model On Million-Level Video And Language With RingAttention》。 3 《HyperAttention: Long-context Attention in Near-Linear Time》。 4 https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/#sundar-note 5 https://blog.google/technology/ai/google-gemini-next-generation-model-febru

立即下载
综合
2024-02-21
中信建投
8页
1.44M
收藏
分享

[中信建投]:AI行业点评:OpenAI发布Sora模型,Google发布Gemini 1.5 Pro,点击即可下载。报告格式为PDF,大小1.44M,页数8页,欢迎下载。

本报告共8页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共8页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
洗地机线上分品牌均价同比
综合
2024-02-21
来源:家用电器行业奥维云网1月线上清洁电器数据简评:龙头扫地机上新提速,洗地机均价延续下滑
查看原文
洗地机线上分品牌零售量份额
综合
2024-02-21
来源:家用电器行业奥维云网1月线上清洁电器数据简评:龙头扫地机上新提速,洗地机均价延续下滑
查看原文
洗地机线上零售均价(元)及同比
综合
2024-02-21
来源:家用电器行业奥维云网1月线上清洁电器数据简评:龙头扫地机上新提速,洗地机均价延续下滑
查看原文
扫地机器人线上分品牌均价同比
综合
2024-02-21
来源:家用电器行业奥维云网1月线上清洁电器数据简评:龙头扫地机上新提速,洗地机均价延续下滑
查看原文
扫地机器人线上分品牌零售量份额
综合
2024-02-21
来源:家用电器行业奥维云网1月线上清洁电器数据简评:龙头扫地机上新提速,洗地机均价延续下滑
查看原文
扫地机器人线上零售均价(元)及同比
综合
2024-02-21
来源:家用电器行业奥维云网1月线上清洁电器数据简评:龙头扫地机上新提速,洗地机均价延续下滑
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起