AI50年度关键词
在过去一年,人工智能技术的迅猛发展正深刻重塑着社会的运行方式。从前沿动态追踪到实际应用场景,从教育辅导到科研创新,AI已然成为推动社会进步的重要力量。在AI技术快速迭代的背景下,系统性的信息整合与分析变得尤为重要。为降低信息获取成本,提升学习效率,腾讯研究院开发了一系列专业的AI资讯产品:• AI每日速递,一份高度凝练的日报产品,帮助读者用3-5分钟快速掌握AI领域当日十大关键进展,在信息过载的时代,为学习与研究“标注”出最有价值的高质量数据;• AI每周50关键词,作为周报产品,基于AI速递内容构建。通过梳理一周热点关键词并制作可交互索引,为研究者提供便捷的“检索增强”工具,助力快速定位所需信息;• 科技九宫格,一档短视频栏目,以3-5分钟视频形式解读科技热点与关键技术原理。通过可视化呈现,促进读者对前沿技术的理解与讨论,为团队内容优化提供重要“反馈”;这些产品的运营过程,恰如大语言模型的迭代优化——持续不断地吸收新数据,萃取新知识,产生新洞见。在此基础上,团队还同步开展了AGI专题分析、AGI线上圆桌、AI&Society高端研讨会与AI&Society百人百问等系列研究探讨。基于全年研究积累的三十余万字AI进展数据库,对当前AI发展进行阶段性总结具有重要意义。为了系统呈现AI发展的关键技术要点和趋势,该报告精选了50个年度关键词,覆盖大模型技术的八大领域:图像处理、视频生成、3D生成、编程助手、Agent、端侧智能、具身智能和基础模型;借鉴大模型的思维特征,创新性序言1的通过"快思考"与"慢思考"两种维度进行分析,形成了50张AI技术图景卡片。• "快思考"维度呈现印象卡片,采用人机协同方式完成。项目团队研究人员主导提示词工程与价值判断,把握内容方向;AI系统负责执行,最终绘制输出技术定义、图示与总结语;• "慢思考"维度则深入分析技术发展的底层逻辑。重点整合研究团队在圆桌讨论和专题研究中的深度思考,借助AI辅助梳理出逻辑链条、本质洞见与趋势判断,为读者勾勒AI发展的脉络与方向。AI技术呈现持续演进、动态发展的特征。该报告通过50个关键词构建的技术图景,旨在展现AI发展的重点领域,把握未来关键趋势,为各界提供研究与决策参考。腾讯研究院将持续深化AI&Society领域的探索,并诚挚的邀请各界好友一共关注与参与,一起迈向一个智能共生的时代。——腾讯研究院院长 司晓23A: Transformer从文本扩展至其它B: DiT架构带来图像生成质的飞跃C: Scaling Law在图像领域开始生效核心观察1. A → 技术演进: • 下一个字符 → 下一个像素 • 突破:序列建模能力迁移2. B → 架构优势: • 替代:U-Net → MMDiT(SD3、Flux、混元文生图) • 提升:- 空间关系理解 - 复杂提示处理 - 细节还原能力3. A + B → C:规模效应 • 参数规模:800M → 12B • 涌现能力:- 真实度提升 - 控制力增强 - 细节完善逻辑链条1. 图像生成正从传统扩散模型走向序列化建模2. Transformer不同模态的底层范式可以实现迁移3. 图像领域正在复制语言模型的缩放法则与能力涌现本质洞见DiT架构结合扩散模型和Transformer的架构,用于高质量图像生成的深度学习模型。扩散变幻,意象成型4A: 图像控制从文本描述走向精确控制B: 控制方式呈现多层次演进C: ControlNet实现精确干预能力核心观察1. A → 控制维度演进: • Prompt:文本描述引导 • LoRA:低成本模型微调 • ControlNet:精确条件控制2. B → 技术路径分化: • 描述控制:语义理解 • 参数控制:模型微调 • 条件控制:额外输入引导 • 工作流控制:外部编排3. C → 精确控制突破: • 光影:IC-Light照明控制 • 轮廓:Paints-Undo创作追溯 • 构图:Omost自动扩展逻辑链条1. 控制正从"描述性"向"操作性"演进2. 多层次控制机制形成互补优势,图像生成正走向"精工制造"时代3. AI图像生成正从粗放生成走向精确控制,这将重塑创作生产流程。本质洞见图像生成控制通过精确的提示词、参数和约束条件,引导AI模型生成符合预期的特定图像内容和风格。参数为笔,意念成像5A: AI图像处理已突破1K分辨率门槛B: 高分辨率对图像生成具有重要商业价值C: 高分辨率对图像理解同样关键D: 高分辨率处理仍存在多重技术限制核心观察1. A ∧ B → 产业应用扩展 生成模型支持1024×1024原生分辨率 → 艺术创作/广告/游戏开发等应用提升2. A ∧ C → 专业领域突破 医学影像分辨率需求[256-1024] ∧ 模型达到1K处理能力 → 专业应用可行3. D → 技术演进方向 ∀(高分辨率处理) → ∃(架构创新 ∨ 性能优化) 例: Pixtral 12B, Eagle系列针对分辨率优化逻辑链条1. 1K分辨率是AI图像处理由通用向专业化过渡的分水岭2. AI图像价值实现需要技术与产业的双向驱动,专业需求 ∧ 技术突破 → 应用深化本质洞见高分辨率图像处理对大尺寸、高精度图像进行分析、增强和变换,以提取信息、改善质量或适应特定应用需求。细微入毫,尺显真容6A: 生成式AI具有强大的技术能力和流量吸引力B: 技术能力需要转化为有效商业闭环C: AI企业被迫进行商业模式转型D: 产业整合成为主要出路核心观察1.A ∧ ¬B → C 为什么要转型? 技术能力 ≠ 商业价值 流量优势 ≠ 变现能力 (技术优势 ∧ 商业化失败) ⇒ 寻求转型2. C → D 案例佐证: - Stability AI: 技术困境 → 视效领域融合 - Leonardo.ai: 独立运营 → 平台整合3. ∀(成功转型案例)→ ∃(产业链整合 ∨ 场景深耕) - 原生技术 → 工具产品 → 产业解决方案逻辑链条1. 想要跨越鸿沟,要么融入既有产业链,要么能够成功对接具体应用需求2. AI图像生成企业将"技术驱动"向"场景驱动"转变,通过产业整合获得商业生态位本质洞见AI图像商业化将人工智能图像生成技术转化为可持续的商业服务,实现技术价值与市场需求的良性循环。智造赋能,价值衍生7A: 图像理解在医疗领域率先实现商业化B: 科技巨头深耕医疗AI研发C: 学术界取得突破性进展D: 行业权威对医疗AI持积极态度核心观察1. A → 产业成熟度与应用价值 图像理解 > 图像生成 专业应用 > 通用应用2. B ∧ C → 技术进步 企业投入: - Med-Gemini系列(2D/3D/基因组) 学术突破: - Mirai(预测诊断) - SAT(3D分割) 技术突破 → 临床验证 → 商业应用 ∀(成功医疗AI) → ∃(专业性 ∧ 实用性 ∧ 可靠性)3. D → 发展趋势 领域专家认可(Hinton、吴恩达等)⇒ 技术路线可靠性逻辑链条1. 多模态识别能力提升,让AI在专业领
[腾讯研究院]:AI50年度关键词,点击即可下载。报告格式为PDF,大小8.49M,页数64页,欢迎下载。