2024年大模型落地与前沿趋势研究报告

大模型落地与前沿趋势研究报告2024.12 量⼦位智库 QbitAI Insights 分析师 Xuanhao xuanhao@qbitai.com01 ⼤模型市场落地概况目 录02⼤模型落地与前沿发展趋势03⼤模型玩家格局及竞争趋势⼤模型市场落地概况:4信息来源:量⼦位智库⼤模型业务模式概览⼤模型市场宏观和落地分布⼤模型业务模式概览:主要包括应用开发部署平台、模型API服务及模型服务三部分,目前模型服务和模型API是核⼼业务5信息来源:量⼦位智库应用层模型层Infra+云• 基于⼤模型构建的AI产品• ⽂案写作、代码⽣成、信息检索、海报制作、视频制作,智能客服、智能营销应用场景AI产品应用搭建模型服务模型APIGPU及配套基础设施• 为用户提供API调用,主要包括托管模型丰富度(自研及第三⽅模型)、模型能⼒、价格、API性能、安全合规等⽅等因素• 数据准备:训练数据的采集、选择、标注、清洗等• 模型训练:包括预训练(pre-train)和微调(fine-tune)• 模型推理部署:帮结合业务场景需求帮助客户在云端和本地进⾏模型推理部署• 模型社区:搭建开源模型服务平台,提供多样化模型库、模型API服务、训练数据集等• 算⼒服务• GPU集群搭建• 互联设施• 数据中⼼建设• 包括AI应用的开发、部署、管理,帮助用户构建AI应用,核⼼组件包括提示词⼯程、RAG、插件⽣态、应用编排等• 最终产⽣价值的落地场景描述示例互联⽹/云厂商⼤模型厂商推理平台重点展开模型服务:数据准备和模型训练是模型服务的关键内容,对交付服务的深度和细致程度有较⾼要求,是国内市场目前最重要的商业模式描述6信息来源:量⼦位智库数据准备模型训练• 环节:包括数据采集,数据评估、数据选择、数据标注、数据清洗、数据回流等• 类型:⾏业数据,即整个的垂直⾏业的相关数据,例如医疗、⾦融、制造、政务等⾏业;场景数据,即垂直⾏业内某⼀场景的数据,例如客服、培训、产品开发、疾病问诊;企业数据,即和企业业务和自身属性相关的数据,例如产品信息、运营信息等应用现状• 微调(Fine-tuning):在已经预训练好的⼤模型基础上基于特定数据集进⼀步调优,对算⼒(百卡级)和数据(数百GB)的需求小,例如LORA,Adapter layer、Prefix Tuning等技术• 预训练(Pre-training):从头开始进⾏预训练,要求有⼤量的垂直相关数据资源和算⼒,包括⽂字、图像、视频、交互记录及其他特殊格式数据模型推理部署• 云端部署:模型在云厂部署,使用模型时调用模型API,由云厂商负责所有运维• 本地部署:自主可控,响应快、服务稳定保响应时长和调用频率、隐私、安全性强• 混合部署:兼顾两种部署模式,具体依照业务场景的需求决定• 数据准备是目前模型服务最核⼼的问题,需要客户厘清数据的种类需求、格式需求等,在此过程中模型服务商需要和客户紧密合作,帮助客户梳理、准备数据• 模型微调的数据需求在数百GB级别,以及⾄少上万条的对话数据、交互数据,数据的质量直接决定模型的表现• 需求⽅画像:以G端客户、中⼤型B端客户为主,国央企、⾦融等⾏业是主要客户• 模型服务是国内⼤模型市场的核⼼部分,贡献了目前⾏业的⼤部分营收• 商业模式较重,需要模型厂商进⾏交付服务,全流程服务客户,本质上是⼀个[⼈*天]投⼊业务模式,但相较于软件、云业务的定制化交付服务要更加轻量化(不同客户的服务内容基本相同)分析• 微调是目前最主流的服务⽅式,效果好成本低,相应技术较成熟• 预训练模型较少见,成本⾼挑战⼤,主要用来解决特殊问题,例如进⾏蛋白质结构预测的AlphaFold• 根据客户偏好和需求决定模型部署⽅式,云端部署是主流⽅式模型社区• 汇聚各类模型信息、数据集、模型竞赛、技术内容分享的社区平台• 主要目的是构建围绕⼤模型的开发者⽣态,促进⽣态繁荣,例如阿里的魔塔社区ModelScope重要性构成模型库模型API:国内各厂商模型能⼒没有明显差异化,API市场的低价竞争阶段将长期持续,整体用量正在快速增加但难以贡献营收描述7信息来源:量⼦位智库,1)Model as a Service• 包括模型厂商的自研模型和第三⽅开源模型(主要适用于云厂商,会提供MaaS1服务)模型能⼒API性能• 推理能⼒:衡量⼤模型智能的核⼼指标,也包括指令遵从、内容合规、用户意图理解等• 上下⽂长度(Context window):模型支持的上下⽂窗⼝⼤小,决定模型可以处理的任务复杂度上限• 多模态能⼒:包括⽂字、图像、视频、音频等模态的理解、⽣成、交互表现• API价格总体上呈快速下降趋势,和具体和调用量、调用⽅式有关价格关键指标• 调用量:由真实的市场需求用脚投票产⽣• 静态评测:各类评测榜单,如MMLU、MATH、GPQA、HumanEval、GSM8K等• 动态评测:用户双盲实测榜单,如LmSys的 Chatbot Arena Leaderboard、LiveBench等• 可选模型的种类和数量,包括语音、图像等其他模态,以及模型供应商数量• API服务的各项性能,包括延迟、吞吐量、输出速度等• 延迟:FTL(First Token latency,从发出请求到收到第⼀个Token的时间,也称Time to first Token )• 吞吐量:RPM(Request per minute,每分钟请求次数)、TPM(Tokens per minute,⼀分钟输出Token量)• 输出速度:Tokens per second(每秒输出Token量)• 稳定性:各项指标稳定性、波动⽔平、故障频率• API价格,包括输出价格(Input Tokens)和输出(Output Tokens)价格,以及更便宜的Batch API安全合规• 用户的数据隐私保护、内容安全合规性• 关于隐私保护、安全合规的关键举措和安全系统构建成熟度• 安全、合规事故的频率关键分析• 需求⽅画像:⾏业属性非常碎片化,包括来自各个⾏业的个体开发者、中小企业、初创公司等,对客户自身技术能⼒有⼀定要求• 难以贡献营收:• API在海外是⼤模型的核⼼商业模式• 国内市场由于模型能⼒缺乏差异化、能⼒不成熟、⾏业低价竞争趋势等因素作用,市场规模较小,目前难以成为模型厂商的主要收⼊来源重要性构成提示词⼯程应用搭建平台:旨在释放⼤模型的应用潜⼒,但目前的产品形态尚未获得市场验证,用户规模依然较小,未来1-2年将更加成熟覆盖更多用户RAG1描述8信息来源:量⼦位智库,1) RAG(Retrieval-Augmented Generation),检索⽣成技术• 通过优化提示词来引导模型⽣成所需输出,可以调整提示词的措辞、结构和内容来提⾼模型响应的准确性和相关性• 随着模型能⼒的不断增强(上下⽂窗⼝的增加、推理能⼒增强、幻觉程度下降),提示词⼯程可以解决的问题集也在不断扩⼤,有⼤量应用场景可以仅通过提示词⼯程来解决• Meta prompting、系统提示词,Prompt模板库• Chain-of-Thought、Tree-of-Thought等提示词研究插件搭建应用编排• 原理是从⼤型知识库或⽂档集合(向量化后)中检索

立即下载
信息科技
2024-12-10
量子位
41页
9.7M
收藏
分享

[量子位]:2024年大模型落地与前沿趋势研究报告,点击即可下载。报告格式为PDF,大小9.7M,页数41页,欢迎下载。

本报告共41页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共41页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
回顶部
报告群
公众号
小程序
在线客服
收起