计算机行业周报：豆包实时语音大模型和大模型1.5线，美政府联手科技巨头启动“星际之门”

2025 年 01 月 27 日豆包实时语音大模型和大模型 1.5 Pro 版本上线，美政府联手科技巨头启动 “星际之门” —计算机行业周报推荐(维持) 投资要点分析师：宝幼琛 S1050521110002 baoyc@cfsc.com.cn 行业相对表现表现 1M 3M 12M 计算机(申万) -6.1 0.0 19.5 沪深 300 -4.1 -3.5 14.5 市场表现资料来源：Wind，华鑫证券研究相关研究 1 、《计算机行业点评报告：Meta(META.O)：AI 赋能广告提效，资本开支继续扩张》2025-01-20 2、《计算机行业周报：美国颁布 AI芯片出口限制新规，黄仁勋提出目前技术上仍以铜链接为主》2025-01-19 3、《计算机行业点评报告：微软（MSFT.0）：全球 AI 竞赛加剧，微软 800 亿美元率先出击》2025-01- 15 ▌算力：恒源云 13 核+128G 算力紧张本周恒源云 13 核+128G 算力紧张。具体来看，显卡配置为A100-40G 中，腾讯云 16 核+96G 价格为 28.64 元/时，阿里云12 核+94GiB 价格为 31.58 元/时；显卡配置为 A100-80G 中，恒源云 13 核+128G 算力紧张;阿里云 16 核+125GiB 价格为34.74 元/时；显卡配置为 A800-80G 中，恒源云 16+256G 价格为 9.00 元/时。 ▌AI 应用：豆包团队发布最新实时语音大模型和大模型 1.5 Pro 版本 1 月 20 日，字节跳动旗下的豆包团队正式发布了豆包实时语音大模型，这是一款语音理解和生成一体化的模型，实现了端到端的语音对话。与传统的级联模式相比，该模型在语音表现力、控制力、情绪承接方面表现出色，具备低时延、对话中可随时打断等特性。这些特性使得模型在实际应用中更加灵活和高效，能够更好地满足用户在不同场景下的需求。在架构方面，豆包团队研发了端到端的框架，深度融合语音与文本模态，面向语音生成和理解进行统一联合建模，实现多模态输入和输出效果。模型支持多种模式，包括语音到语音（S2S）、语音到文本（S2T）、文本到语音（T2S）、文本到文本（T2T）等。在声音控制方面，模型不仅能依照基础指令输出，还可遵循复杂的指令，展现出较强的声音控制能力。在声音扮演方面，模型能够模仿多种方言和口音。此外，豆包实时语音大模型还支持实时联网功能，能够根据问题动态获取最新信息，确保问题回答的时效性。从测评结果来看，豆包实时语音大模型在情绪理解和情感表达方面具有显著优势。在整体满意度方面，豆包实时语音大模型的评分为 4.36，而 GPT-4o 的评分为 3.18。目前，豆包 App 全新实时语音通话功能已全量上线。 2025 年 1 月 22 日豆包大模型 1.5 Pro 版本正式发布。模型使用 MoE 架构，并通过训练-推理一体化设计，追求模型性能和推理性能的平衡。Doubao-1.5-pro 仅用较小激活参数，即可超过一流超大稠密预训练模型的性能，并在多个评测基准上取得优异成绩。具体亮点如下： 1）综合能力领先：豆包大模型 1.5Pro 在知识(MMLU_PRO、-40-200204060(%)计算机沪深300证券研究报告行业研究证券研究报告请阅读最后一页重要免责声明 2 诚信、专业、稳健、高效 GPQA)、代码(McEval、FullStackBench)、推理(DROP)、中文(CMMLU、C-Eval)等多项公开测评基准上成绩全球领先。 2）高效模型结构和超低成本：豆包大模型 1.5Pro 使用较小的激活参数进行预训练，训练成本极低的同时保持性能优越，采用大规模稀疏 MoE 架构，等效 7 倍激活参数的 Dense模型性能，远超业内 MoE 架构约 3 倍杠杆的常规效率；凭借自研服务器集群方案，灵活支持低成本芯片，硬件成本比行业方案大幅度降低；自研网卡和网络协议，显著优化小包通讯效率，算子层计算与通信的高效交叠，保证了多机分布式推理的稳定和高效；通过精细量化和 PD 分离等方案，灵活使用算力和多任务混合调度，实现更高效算力利用。 3）多模态能力全面提升：视觉方面，相比于上一版本，Doubao-1.5-pro 在多模态数据合成、动态分辨率、多模态对齐、混合训练上进行了全面的技术提升，进一步增强了模型在视觉推理、文字文档识别、细粒度信息理解、指令遵循等方面的能力，并让模型的回复模式变得更加精简、友好；在语音多模态上，提出新的 Speech2Speech 的端到端框架，不仅通过原生方法将语音和文本模态进行深度融合，同时实现了语音对话中真正意义上的语音理解生成端到端，相比传统的 ASR+LLM+TTS 的级联方式，在对话效果上有质的飞跃。 4）更强的深度思考能力：基于豆包 1.5 基座模型，通过 RL算法的突破和工程优化，在未使用其他模型数据的情况下，研发豆包深度思考模型。阶段性进展 Doubao-1.5-Pro-AS1-Preview 在 AIME 上已取得了业内领先的成绩。值得关注的是，豆包在所有模型训练过程中未使用任何其他模型生成的数据。豆包大模型构建自主的数据生产体系，以标注团队与模型 self play 技术相结合，高效优化数据质量，提升数据标注多样性和难度，确保数据来源的独立性和可靠性 ▌AI 融资动向: 美国政府与 OpenAI、软银、甲骨文联合启动“星际之门”项目，四年内计划投资额达5000 亿美元美国政府与 OpenAI、软银、甲骨文联合启动“星际之门”项目，四年内计划投资额达 5000 亿美元。北京时间 1 月 22日，美国新任总统特朗普宣布，将与 OpenAI、甲骨文和软银合作，共同投资 5000 亿美元用于支持美国的人工智能基础设施建设，该项目名为“星际之门”（Stargate）。按照计划，“星际之门”项目参与各方将成立合资公司，初期投资为 1000 亿美元，未来四年内总投资额可能高达 5000 亿美元。甲骨文联合创始人拉里·埃里森表示，首个合作项目将安排在美国得克萨斯州建设数据中心，相关工作已经启动。OpenAI 表示，该项目不仅将支持美国的再工业化，还将为保护美国及其盟友的国家安全提供战略支持。根据 OpenAI 的声证券研究报告请阅读最后一页重要免责声明 3 诚信、专业、稳健、高效明，孙正义将担任合资公司的董事会主席，软银和 OpenAI 是该项目的主要合作伙伴，软银负责资金支持，OpenAI 负责运营管理。而半导体公司 Arm、微软、英伟达、甲骨文以及OpenAI 将成为关键技术合作伙伴。 ▌投资建议 1 月 27 日，苹果 App Store 中国区免费榜显示，DeepSeek 成为中国区第一，成为国产大模型弯道超车的里程碑事件。DeepSeek R1 没有使用业内普遍使用的监督微调（SFT）训练范式，而是直接通过强化学习让模型自主进化出复杂的推理能力，包括反思和长链思考等能力。与 OpenAI 的 o1 相比，DeepSeek 模型的百万 token 输入成本从 15 美元锐减到 0.

立即下载

电子设备

2025-01-31

华鑫证券

宝幼琛

15页

0.82M

[华鑫证券]:计算机行业周报：豆包实时语音大模型和大模型1.5线，美政府联手科技巨头启动“星际之门”，点击即可下载。报告格式为PDF，大小0.82M，页数15页，欢迎下载。

本报告共15页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

本报告共15页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

水滴研报所有报告均是客户上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作商用。

计算机行业周报：豆包实时语音大模型和大模型1.5线，美政府联手科技巨头启动“星际之门”

关于我们

联系我们

计算机行业周报：豆包实时语音大模型和大模型1.5线，美政府联手科技巨头启动“星际之门”

关于我们

联系我们

小程序

公众号