AI原生工作报告2026
从信任鸿沟到可靠协作的十个关键词驾驭AI出品:AI原生工作团队《AI原生工作报告2026》我们正在经历一场前所未有的协作革命。人与AI之间,正在生长出一种全新的信任关系,它不来自完美,而来自持续的校准与驾驭。这份报告用十个关键词,记录我们正在走的那条学习曲线。09关键词1 驾驭工程人设计环境,AI在环境中执行;核心范式跃迁29关键词6 工作流人类工程师始终是这场演出的导演13关键词2 记忆精确遗忘比完美记忆更重要33关键词7 多智能体用好一个,再用多个,可以打开更大的世界17关键词3 技能最好用的,是自己持续维护的skills37关键词8 加法偏见加法是能力,减法是智慧。21关键词4 评估可靠的评估与反馈是方向盘,是质量的前提41关键词9 去技能化如果有一种技能我们输不起25关键词5 上下文停止把你的人生故事放进去45关键词10 知识工程方法会过时,工具会迭代,最终留下什么序言信任鸿沟:可靠不等于不出错,可靠是出错之后还能接住05目录研究团队顾问研究策划研究&实践袁晓辉李瑞龙曹士圯余一王鹏刘莫闲王强吴朋阳白惠天陈东明陈维宣陈楚仪胡璇贺泽轩张鸿茹朱敏袁歆霍浩华丁阳朱于增傅育生陆诗雨唐嘉晗产品支持李瑞龙报告主笔李瑞龙余 一曹士圯袁晓辉司晓 | 腾讯研究院院长杨乐 | 腾讯研究院副院长杨健 | 腾讯研究院总顾问冯宏声 | 腾讯研究院高级顾问黄广民孔德远汪晟杰袁晓辉设计支持崔 昭信任鸿沟:可靠不等于不出错,可靠是出错之后还能接住。序84%采用 vs 29%信任为什么用了≠用好了2023 年,全球最大开发者社区 Stack Overflow 的年度开发者调查显示 AI 编程工具的信任度是 40%。两年后,采用率从 70% 升到了 84%。信任度降到了 29%。用得越多,信得越少。为什么我们很少见到一个技术是这样的?这个不是简单的信任问题。Stack Overflow 自己的分析给了一个精准的判断:这是一条学习曲线,伪装成了信任问题。这句话值得琢磨。以当前AI应用最广的领域为例,软件工程师的职业训练建立在确定性上。写同样的函数,传同样的参数,得到同样的结果。然而,当 AI 来了。同一个问题问两遍,两个答案,两种结构,两套取舍方案。都能跑。对于严谨的工程师来说,这样的特性,需要一个适应过程。这种感受不是程序员独有的。律师期望同一条法规的检索结果稳定一致,医生期望同一组指标指向确定的诊断方向,金融分析师期望同一套参数产出可复现的估值。概率性系统进入确定性职业的地盘,遇到的不是能力质疑,是一种更原始的不适:认知摩擦。但信任低,不意味着人们在验证。就目前来说,人们对于AI的信任偏差并没有形成体系的方法论来约束它,利用好它。96%不信,48%不查另一组非常矛盾的行为数据。代码质量平台 Sonar 的调查揭了一组更值得琢磨的数字:96% 的开发者不完全信任 AI 代码的功能正确性。但只有 48% 的人在提交前始终检查。几乎所有人都说“我不信”,一半人说完就点了提交。为什么不查?不是因为懒。38% 的开发者觉得审查 AI 代码比审查人类代码更费力。为什么更费力?AI 产出“看起来正确但不可靠”,不像语法错误会让构建直接失败,AI 写出来的是看着合理的逻辑,bug 藏在里面,需要更高的专业判断力才能揪出来。每个用AI的人都在走一条学习曲线。从惊艳到怀疑,从怀疑到找到自己的节奏。这条路没有捷径,但有方法。我们从这里开始聊。这是一个隐蔽的成本转移:AI 把“写”的工作量砍下来了,但把“查”的负担顶上去了。查的成本一旦超出预期,人们的反应不是更仔细地查,是不查了。嘴上的不信任是安全的。手上的放行才危险。更自信,但更差除了上述的行为失控,还有更麻烦的感知失真,也就是说,你甚至不知道自己的判断已经偏了。斯坦福大学 Dan Boneh 团队在 CCS 2023(计算机安全顶会)上发了一项随机对照实验。用AI 助手的参与者在多数安全编程任务中写出了更多不安全的代码。写出不安全代码的那批人,对 AI 的信任评分反而更高。你越觉得它帮了你,它越可能在坑你。这时候你可能会说,经验丰富的开发者是否可以避免这个问题?AI 安全评估机构 METR 在 2025 年做了另一个实验。16 名经验丰富的开源开发者,在自己贡献多年的仓库上干活,用的是前沿模型。结果:实际慢了19%。自我感觉快了 20%。感知和现实之间差了 39 个百分点。研究团队也指出,在不熟悉的代码库或简单任务上,AI 可能确实有帮助。但在高质量标准和复杂隐含要求的场景下,验证和整合 AI 输出的开销把速度收益吃回去了。两种情况下,人们对自身表现的判断都偏向乐观。要么留下了风险代码,要么增加人工检查,反而导致效率下降。用了,并不一定等于用好了。300 行代码,居然全错在更多的真实场景里呢?一位工程师在 FDA(美国食药监局)监管的医院基础设施中用 Claude Code,AI 写了 300 行OpenTofu 基础设施代码。语法完美。逻辑表面合理。通过了验证流程。但是,它引用的资源和配置,有很大一部分是编的,事实上并不存在。在许多专业领域当中,AI应用需要更为谨慎,因为在基础模型预训练阶段,这些资源配置和边界条件,没有在训练数据中覆盖。大量的实际应用,是需要做边界判断的,不是仅仅考虑语法逻辑,语法 AI 早就会了。AI 知道语法。不司晓腾讯副总裁 腾讯研究院院长知道的是这个 FDA 环境下哪些资源存在、哪些配置合规、哪些边界不能跨越。这不是知识问题,是判断力问题——它不理解上下文,不理解后果,不理解地“如果这样做会怎样”。法律合规、金融审计、医疗决策、科研创新,同一种困境。训练数据覆盖不了特定环境的边界条件。它不知道自己不知道。而语法完美但语义虚构的产出,恰恰最难被发现,因为它通过了所有表面的检验。一个必经的过程,失败后的信任比从未失败的更强如何重建信任,更准确的说,应该沿着学习曲线与AI更好的协作,我们再来看首尔国立大学做的两个实验,样本分别为 189 人和294 人。他们发现信任不是一个静态指标,而是一条有形状曲线:第一阶段,形成。初次接触,基于能力线索建立期望,通常偏高。第二阶段,冲击。一个可见错误,信任断崖式下降。人对 AI 的容错度比对人低得多,研究者称之为“完美自动化图式”,你下意识觉得机器就应该是对的,有幻觉即不可用。第三阶段,修复。解释为什么出错,指出系统边界。信任部分恢复。意外的发现在第三阶段:修复后的信任可以超过初始基线。经历过错误并被正确解释的信任,比从未经历过错误的信任更结实。研究者称之为“信任加速悖论”。你信任一个医生,不是因为他从来没误诊过,而是因为你见过他发现误诊后怎么纠正、怎么坦诚、怎么调整方案。可靠不等于不出错。可靠是出错之后怎么处理。所以,我们应该做的,从来不是追求完全信息、零幻觉、零失败,而是设计“可控失败+透明修复”的流程。图:人机交互中的信任动态:单次错误冲击与事后解释修复图片来源:https://doi.org/10.3390/bs15101370可控性的分寸在哪里软件工程顶会 FSE 2026 的一篇论文提出了依赖-控制二维框架。22 名开发者访谈,信任问题可以用两个轴来画:纵轴是依赖程度,横轴是控制程度。“甜点”在平衡控制与适当依
[腾讯研究院]:AI原生工作报告2026,点击即可下载。报告格式为PDF,大小12.78M,页数49页,欢迎下载。



