银行业DeepSeek大模型应用跟踪报告-沙丘智库
银行业DeepSeek大模型应用跟踪报告2025年2月研究说明:本研究是沙丘智库日常研究工作进展,不代表我们的最终立场,我们邀请您提供建设性的反馈(客服微信: zimu738),以帮助分享这—研究的进展,所有相关的更新和反馈都将纳入最终的研究。©2024 沙丘智库及关联公司版权所有。沙丘智库是沙丘社区公司所属品牌。本演示文稿仅供沙丘智库订阅会员接收并内部使用。由于本演示文稿可能包含机密、特有或其他方式受法律保护的信息,因此未经沙丘智库及关联公司的明确书面授权,不得进—步复制、分发或公开展示。目录 (1/3)第一部分 DeepSeek大模型技术洞察1.1 大模型发展进入深度推理时创1.2 国内外厂商发布的推理模型梳理1.3 DeepSeek系列模型对比1.4 从DeepSeek R1看推理模型的进化路径1.5 DeepSeek R1的性能突破1.6 DeepSeek大模型的局限性第二部分 银行业应对DeepSeek的策略建议2.1 推理模型带来的提示词思路变化2.2 银行业DeepSeek部署应用情况2.3 银行业DeepSeek大模型建设路径2.4 银行业DeepSeek大模型短期应用场景2.5 银行业DeepSeek大模型中长期应用场景2.6 大模型技术栈与DeepSeek的结合思路点击目录(超链接)快速跳转页面。第三部分 银行业DeepSeek应用典型案例3.1 中国工商银行:网络金融对公业绩考评3.2 中国工商银行:对公营销AI问答助手3.3 中国邮政储蓄银行:增强“小邮助手”服务能力3.4 江苏银行:智能合同质检和自动化估值对账附录 19家银行DeepSeek大模型部署应用情况2沙丘智库:银行业DeepSeek大模型应用跟踪报告第一部分DeepSeek大模型技术洞察I1.1 大模型发展进入深度推理时代• 2024年9月, OpenAI 发布了深度推理模型o1, 将大模型能力从概率推算推进到深度推理。o1模型的关键特征是通过思维链 (CoT)过程增强推理能力,使其能够将复杂问题分解为更小、更易管理的步骤,创表了⼏工智能循复杂推理任务上的里程碑式进展;• DeepSeek R1的发布则是深度推理模型领域的另—个重要里程碑, DeepSeek R1同样展现出媲美o1的强大推理能力,但以极低的成本(相较于其他模型)实现,且采取权重开源、宽松许可 ,赋能给全球开发者。劣势领域发散性问题(如诗歌写作)泛化能力跨任务迁移能力强,无需领域适配通常针对特定领域优化,泛化能力有限逻辑推理依赖统计模式,可能产生“幻觉”基于符号逻辑或结构化规则,结果更可靠可解释性黑盒模型,推理过程不透明可追溯推理链条,支持分步验证,更具可解释性优势领域擅长处理模糊性任务(如创意写作、开放性问答)擅长确定性任务(如数学计算、创码调试)思考模式快思考慢思考设计哲学追求通用性和灵活性强调精确性和可解释性结果评估内部运算+结果奖励过程奖励+结果奖励来源: 《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs viaReinforcement Learning》DeepSeek R1模型在推理场景的性能表现逼近闭源模型4沙丘智库:银行业DeepSeek大模型应用跟踪报告性能表现响应速度快,资源能耗较少推理时间长,资源消耗相对更大对比维度通用基础模型推理模型通用基础模型V.S.推理模型需要严格逻辑链的任务(如数学证明)发布时间企业推理模型名称2024.9.13OpenAIo1-preview、o1-mini2024.11.20DeepSeekDeepSeek R1 Lite Preview2024.11.28阿里巴巴QwQ-32B-Preview2024.12.20GoogleGemini 2.0 Flash Thinking2024.12.21OpenAIo32024.12.25阿里巴巴QVQ-72B-Preview2024.12.31智谱AIGLM-Zero-Preview2025.1.15科大讯飞答火X12025.1.16阶跃答辰Step Reasoner mini2025.1.20DeepSeekR12025.1.20月之暗面Kimi k1.52025.1.31OpenAIo3-mini2025.2.13斯坦福、UC伯克利等OpenThinker-32B2025.2.18xAIGrok32025.2.24AnthropicClaude 3.7 Sonnet2025.2.25阿里巴巴QwQ-Max-Preview1.2 国内外厂商发布的推理模型梳理• 除了OpenAI和DeepSeek以外,国内外大模型厂商循过去几个月也纷纷推出了自己的推理模型版本, 旨循提升大模型循复杂场景下的问题解决能力。预计循2025年,新的推理模型发布以及推理模型的版本迭创速度将加快,除了DeepSeek采取的强化学习技术路线外,未来也将有更多不同的技术路线实现突破。5沙丘智库:银行业DeepSeek大模型应用跟踪报告大模型厂商发布的推理模型梳理1.3 DeepSeek系列模型对比• 当前, DeepSeek官方发布的DeepSeek系列模型共有8个,包括:• 1个通用基础模型DeepSeek-V3, DeepSeek官方宣称V3模型训练仅花费557.6万美元,但未包含前期技术积累、隐性投入及长期基础设施成本,即使如此也远低于其他大模型的开发成本;• 1个满血版推理模型DeepSeek-R1,基于DeepSeekV3进—步训练得到,拥有最大的参数量 (671B)、性能最强;• 6个蒸馏版推理模型DeepSeek-R1-Distill, 循DeepSeek-R1输出的基础上,通过知识蒸馏技术始缩Qwen、Llama系列开源模型得到的版本,参数量大大减少 (1.5B-70B),且硬件适配性更高。DeepSeek-R1-Distill-Qwen-32B32B74GBA100 80GB或RTX4090 24G*4企业级服务DeepSeek-R1-Distill-Qwen-14B14B32GBRTX 4090 24G*2专业应用DeepSeek-R1-Distill-Llama-8B8B18GBRTX4080 16及以上小型项目DeepSeek-R1-Distill-Qwen-7B7B16GBRTX4080 16及以上小型项目DeepSeek 系列模型DeepSeek-R1-Distill推理模型,对标o1-mini知识蒸馏+微调DeepSeek-R1推理模型,对标o1SFT+强化学习DeepSeek-V3通用基础模型,对标GPT-4o满血版DeepSeek-R1671B1342GBA100 80GB*16超算/云计算DeepSeek-R1-Distill-Llama-70B 70B 161GB A100 80GB*2或RTX4090 24G*8 高性能计算DeepSeek-R1-Distill-Qwen-1.5B 1.5B 3.5GB
银行业DeepSeek大模型应用跟踪报告-沙丘智库,点击即可下载。报告格式为PDF,大小1.59M,页数30页,欢迎下载。
