企业级AI应用开发:从技术选型到生产落地
企业级 AI 应用开发:从技术选型到生产落地阿里云 Serverless AI 团队黛忻Contents目录01 企业级 AI 应用开发运行时选型02 Serverless AI 运行时关键技术03 客户案例 – Serverelss + AI 让应用开发更简单企业级 AI 应用开发运行时选型01AI 原生范式对基础设施提出全新的要求构建支持 AI Agent 的高效基础设施Agent-Centric基础设施的核心服务对象从“人类用户”转变为“自主Agent”,以 Agent 而非服务或 API 为中心以 Agent 为中心State-First状态是 Agent 的“记忆”与“人格”载体,基础设施必须原生支持状态的持久化、低延迟访问与跨环境迁移基础设施主动协调 Agent 完成目标,而非被动响应请求,Agent 和 Agent 或者 Agent和工具之间的协作依靠事件驱动和动态弹性Task-Driven OrchestrationEmbrace Uncertainty任务驱动协作状态优先承认 LLM 输出的非确定性,通过基础设施能力降低风险,而非追求绝对可控,从“防御性编程”转向“容错自愈”接受不确定性动态弹性按请求弹性,毫秒/秒级供给资源,支持低峰缩 0 弹性降本状态持久化内置状态持久化或集成工作流,支持快照或会话管理,自带 3AZ 容灾事件驱动通过云产品事件驱动自动执行,架构原子化解耦,协作更容易流量不可预测多租户数据敏感易受注入攻击弹性隔离安全智能体 Agent❌ 从传统架构到 AI 原生架构✅ 从 Serverless 架构到 AI 原生架构静态资源分配预留固定资源,利用率低,无弹性或分钟级弹性状态管理复杂依赖 Redis/DB 管理,故障恢复复杂,跨节点迁移几乎不可行API 驱动依赖网关/MQ实现同步和异步调用或,微服务架构协作复杂度高VM/容器运行时AI 时代需求Serverless 运行时运维负担沉重依赖专业运维团队配置集群、环境,自建监控日志代价高免运维安全隔离的多语言运行环境,自带监控日志告警等配套设施AI 时代开发者关注业务创新而非基础设施Serverless 是 AI 原生架构的最短实现路径轻量经济异构算力开发提效管理者弹性降本开发者模型智能体Serverless AI 运行时是 AI 原生应用的最佳选择从 Serverless 到 Serverless AI工具Serverless AI 运行时会话管理Serverless AI 运行时关键技术02Serverless平台底座异构算力CPU 算力(x86)GPU 算力(Tesla, Ada, Hopper, etc.)内置多语言运行环境Python3.6~3.11函数类型事件函数Web函数任务函数GPU 函数产品集成,事件驱动云产品 Serverless 化安全隔离,自动容灾沙箱容器 2.0高密部署,主动调度第四代神龙架构快速交付,极致弹性资源池化 2.0XPU 算力Node.js 17~22自定义镜像PHP/Go/.NET/…自定义运行时Java 8~21AI 应用开箱即用Qwen, DeepSeek, etc.模型服务MCP & SandboxAI 工具ComfyUI, SD, etc.图像生成低代码编排、高代码编码智能体 AgentServerless AI 运行时异构算力生态集成函数计算 FC:Serverless AI 运行时0 运维、轻量、经济、弹性数据来源:公开数据0100倍50+冷启动速度:FC 毫秒~秒级,虚机数分钟,容器 30+秒~数分钟按请求调度,毫/秒计费,低峰自动缩 0虚机包月浪费多,容器为集群持续付费Python/Node/Java/PHP/Go/.NET 等50+ 内置运行时环境,支持自定义运行时和自定义镜像,方便开发者灵活定制5倍最小规格:FC 0.05C128MB,虚机 1C512MB,容器 0.25C512MB规格粒度启动效率不使用不计费内置环境FC 不为 3AZ 容灾额外付费,虚机/容器则需额外付费!FC 安全容器安全加固策略(核心是限制代码破坏范围):✓ 安全容器提供基于虚拟机级别的隔离✓ 函数调度尽可能调度到同一台神龙服务器✓ 加固安全策略:端口封禁、命令行封禁等✓ 组件裁减:精简不必要驱动和内核接口,启动速度更快、资源占用更少✓ 实例回收:销毁重建,避免残留 /tmp目录、日志、环境变量、进程等普通容器用内核提供的 namespace 和 cgroup 做资源限制和隔离(从机器上圈了一部分资源给容器用),在安全性上存在不足: 容器内的进程在宿主机上可以看到 容器和宿主机共用内核,可以对宿主机进行破坏函数计算FC运行时安全沙箱容器✓ 安全隔离✓ 性能隔离✓ 故障隔离操作系统内核容器RuntimeUser Code租户 A租户 B传统容器技术云主机容器RuntimeUser Code物理服务器硬件虚拟化租户 A租户 B神龙服务器安全容器RuntimeUser CodeGuest Kernel安全容器RuntimeUser CodeGuest KernelServerless AI 运行时安全 —— 资源强隔离用户发起推理请求请求达到函数网关自动弹性1/N 切卡闲置唤醒请求感知调度实时负载分析与请求感知调度,资源效率最高,时延更稳定请求载感知调度毫秒级闲置唤醒1/N卡切分使用模型运行时关键技术函数计算 Serverless GPU 相对虚拟/容器的核心优势:请求感知调度、毫秒级闲置唤醒、1/N卡切分使用、Serverless 混合调度powered by 基础软件 sCR,数据来源:测试得出用户常驻资源池 +平台弹性资源池 混合调度百倍加速业界领先(毫秒级)轻量灵活++常驻资源池(用户包月购买)弹性资源池(平台保有,用户按量使用)按请求弹性定时弹性水位伸缩模型运行时:GPU冷启动优化SD-v1-5-inpainting(4.27GB) 0->1 TTFIQwen-14B-Chat-Int4(9.01GB) 0->1 TTFI最小实例>01ms20s最小实例=01ms25s最小实例>0最小实例=0首次推理冷启动耗时分布示意图运行时镜像模型弹性实例(热启动)最小实例>0弹性实例(冷启动)最小实例数=0模型加载首次推理运行时准备镜像拉取预热实例首次推理毫秒级响应实时/准实时在线推理服务的痛点1.低时延:实时/准实时业务时延敏感,一般要求秒级响应,部分场景下需要毫秒级2.高并发:高峰期突增的吞吐量可能导致系统性能下降3.高成本:低峰期和小规格模型资源浪费,高峰期资源不足,成本优化难4.低容错:小流量推理场景单卡容灾能力差,故障率高稀疏调用突发流量高频短时调用+50%建模效率GPU 算力成本-40%时延极度敏感 高峰期流量大 算力浪费较多业务痛点使用价值客户案例FC GPU 适用于三类典型场景Serverless GPU 的价值函数计算首推 Serverless GPU 启动快照,实现毫秒级的首次推理响应,0->1 首包耗时对比 K8s GPU,从分钟级优化至毫秒级模型运行时:模型加载加速适用场景:<1GB 的传统领域模型(CV / TTS) ,模型变更频率比较低模型加载加速方案:
[阿里云计算]:企业级AI应用开发:从技术选型到生产落地,点击即可下载。报告格式为PDF,大小12M,页数99页,欢迎下载。



