AI眼镜:多模态大模型的纽北赛道-邢孝慈
AI眼镜——多模态大模型的纽北赛道邢孝慈 豆包大模型产品解决方案总监一、大模型技术发展趋势ChatBot、Copilot、Agent、AI助手、Act时代长文本多模态慢思考AI应用大模型技术发展趋势判断1:大模型对基础设施变革明确,但AI应用依然处在发展初期*Source:红杉、Statista、财报、火山引擎整理Developer全球企业软件互联网AppsDataDevice苹果联想三星OPPOSecurityInfra企业软件互联网中国火山方舟扣子HiAgent联想OPPOvivoAI豆包语音大模型豆包视觉大模型豆包大语言模型AI云原生AI+数据AI+安全营销48937销售1197110客服125221116代码11829213舆情6452医药872827法律52825金融712244GPU 云300146244机器人361314工具类 (如 LLM 训练 / 微调 / 推理工具)199421115生成类 (视频生成、3D 生成、虚拟人生成等)10019617数据 / 网络安全551325其他22043516Total153640579125判断1:大模型对基础设施变革明确,但AI应用依然处在发展初期行业分类头部公司总估值(亿美金)头部公司总融资额(亿美金) 头部公司总收入(亿美金)头部公司数量判断2:AI应用逐步从替代工具,到替代服务SoftwareSoftware as a ServiceAI as a SoftwareService as a Software $350B 软件市场$6B 云软件市场$650B 软件市场$400B 云软件市场$10T+软件和服务市场$3B Al 软件市场$650B 软件市场$3B AI软件市场35065065010000640033*Source:红杉、火山引擎整理判断3:24年调用量在快速发展,25年AI应用市场依然会保持10倍速增长*Source:Menlo Ventures,单位USD Millions;右图为豆包5-12月真实调用量生成式人工智能支出 2023 vs 2024豆包大模型日均tokens调用量TotalFoundation modelsVertical AIHorizontal AI05000100001500030013800100065001001200225016006.1X6.5X12.0X5.3X5月7月9月12月0200004000012005000130004000033倍判断3:24年调用量在快速发展,25年AI应用市场依然会保持10倍速增长9月日均Tokens调用量8.3% 学习教育6.2%AI工具29.0 % 信息处理36.7% 互动娱乐11.6 % 硬件助手8.3%客服与销售12月日均Tokens调用量4.0%其他23.0 % 互动娱乐41.0% 信息处理旅游规划、金融风险评估、法律事务处理、历史研究医疗临床试验、汽车运营等场景14.0 %AI工具9.0% 客服与销售7.0% 硬件助手3.0% 学习教育AI应用/AI Agent 落地需要打破更多壁垒构建AI应用/AI Agent的关键路径模型选择多模态模型多尺寸模型导入自有模型模型评估模型市场成本、延时性能优化延时优化的推理训推一体KV Cache模型蒸馏PD分离架构企业数据与知识融合Fine-tuning提示词工程GraphRAGAI搜索与推荐企业知识库数据与模型安全PCC私密云操作审计环境隔离AI checks建立和编排Agents工作流智能体开发二、大模型落地的挑战与应对挑战1:在业务落地中选择更强的模型举例:豆包·视觉理解模型应用场景模型优势更强内容识别能力图像知识、动作情绪、位置状态、中国传统文化、文字信息更强理解和推理能力数学、逻辑、代码更细腻的视觉描述能力细节描述、指令遵循、多种文体创作金融票据具身智能图像搜索图片审核电商直播质检报告图表解读图片打标拍照解题手写批改拍照搜索金融直播质检金融投资研究基于图片生成爆款文案文档图片识别自动驾驶训练智能手机助手作文批改儿童拍照对话购物小票识别照片故事生成教育场景旅游场景电商营销场景豆包·视频生成模型,精准语义理解、强大动态及运镜能力通过精准语义理解、强大动态及运镜能力创作高质量视频,支持文本和图片生成两种模式应用场景电商营销动画教育城市文旅微剧本(音乐MV、微电影、短剧等)模型优势多动作多主体交互一致性多镜头生成强大动态与炫酷运镜多风格多比例高效的DiT融合计算单元更充分地压缩编码视频与文本全新设计的扩散模型训练方法一致性多镜头生成深度优化的Transformer结构大幅提升视频生成的泛化能力挑战2:实现成本、延时和性能优化Context 上下文缓存:更快,更省Prefix cache助力一致性、高频命中场景Session cache助力短时效、上下文记忆场景数据分析信息抽取……社交陪聊客服助手……无须重复对话,即可保留上下文减少多轮对话的延迟,改善用户体验缓存命中部分2折,节省高达80%某客户前缀命中的场景中,端到端延迟从2.7s降低到1.14s50%延迟下降未使用cache费用使用cache费用输入输出输出输入(miss)输入(hit)存储强劲的系统承载力,是充沛算力、推理层优化、系统调度能力的乘积海量资源充沛的公有云GPU资源池,资源潮汐调度,保障流量高峰业务稳定瞬时可用创建模型接入点后瞬时可用,路由信息持久化保存,即用即达极致弹性分钟级完成千卡扩缩容,有效支撑突发流量和业务高峰,为企业降低成本挑战3:保障全周期安全可信、会话无痕01、链路全加密保证从用户到方舟安全计算环境之间是“端到端”的加密通信通道,防止用户数据在传输链路中被截获02、数据高保密实现对用户数据的机密性保护保证用户数据非本人不可见密文从安全沙箱直写至分布式存储支持用户自定义密钥03、环境强隔离通过多维度强制隔离,杜绝外部风险入侵和内部数据泄露可信容器沙箱细粒度网络隔离可信数据访问代理白屏化运维04、操作可审计影响用户数据资产的所有操作均有日志记录,验证安全策略生效,识别潜在风险沙箱登录日志沙箱连接日志沙箱容器逃逸日志vArmor拦截日志KMS访问日志接入点访问日志网络层的传输加密应用层的会话加密数据唯你可见,唯你所用,唯你所有挑战4:实现算法驱动的自动化Prompting Engineering模型越强,问出好问题的价值越大有很多高价值的问题是没有标准答案的相同问题在不同模型上得到的效果有差异模型越强提示词越重要实现算法驱动的自动化Prompting Engineering满分比例60.86%91.80%验证数据量46条电商场景尺码表抽取+历史会话理解+推荐合适尺码满分比例72.12%81.25%验证数据量35条招聘职位信息抽取+简历关键信息抽取+匹配等级分级满分比例50.94%75.50%验证数据量53条汽车智能助手识别车舱内用户指令+理解车舱操作函数+激活函数参数30.95%9.13%24.56%挑战5:实现基座模型与企业数据和知识的融合大模型+多模态搜索与个性化推荐大模型+企业数据和知识强大的AI搜索+强大的AI推荐,1+1>2AI搜推,发现更多,推荐更准,搜索无限可能人与信息的一体两面,搜索+推荐三、所有的智
AI眼镜:多模态大模型的纽北赛道-邢孝慈,点击即可下载。报告格式为PDF,大小11.4M,页数28页,欢迎下载。