2025年LLM与安全代码报告
L L M 与 代 码 安 全 1.LLM代码生成应用背景大纲2.LLM代码生成的安全问题3.LLM代码安全生成的安全实践4.AI代码生成威胁LLM与代码安全主要分享路线LLM应用广泛,逐渐渗透至各个领域1.LLM代码生成应用背景行业重大需求代码生成安全是软件开发的一项基础性工作,必须重视和加强代码生成安全工作在LLM使用场景中,代码生成的相关需求远远高于其他类型任务https://www.anthropic.com/news/the-anthropic-economic-indexhttps://openrouter.ai/rankings?view=monthClaude.ai 的真实世界使用数据。这些数字指的是与 Claude 进行的对话中,涉及这些具体任务、职业和类别的百分比OpenRouter 上跟踪的使用LLM token量最大的应用能够根据上下文自动补全代码能够根据注释描述自动补全代码代码开发新范式,LLM4CODE自动根据项目信息生成测试文件进行代码理解翻译代码开发新范式, LLM4CODEClaude、Copilot等已经可以生成仓库级代码项目代码开发新范式, LLM4CODE便捷的生成下安全隐患?代码开发新范式, LLM4CODE2.LLM代码生成的安全问题代码开发新范式,AI提升开发速度LLM 提高了代码生产效率,但是安全性未必得到足够的关注非主场难度大收益低◆目前聚焦的主要战场 还在能力边界扩展◆安全性提升难度大(安全数据、安全能力)◆直接收益低 风险暂时不够突出行业重大需求OWASP 2025 年 LLM 应用 Top 10 风险安全缺位代码漏洞基准缺失生成风险100%的主流LLM生成漏洞大模型领域代码生成安全问题严峻代码生成安全是软件开发的一项基础性工作,必须重视和加强代码生成安全工作10%的GPT-4o生成代码在简单提示下的安全性评分低30%的应用安全漏洞将源于 AI 辅助编程实践1、https://www.backslash.security/press-releases/backslash-security-reveals-in-new-research-that-gpt-4-1-other-popular-llms-generate-insecure-code-unless-explicitly-prompted2、http://owasp.org.cn/OWASP-CHINA/owasp-project/owasp-59278/张坤--LLM应用程序OWASP十大安全风险2025发布版本.pdf3、https://www.lasso.security/blog/owasp-top-10-for-llm-applications-generative-ai-key-updates-for-20254、https://www.veracode.com/wp-content/uploads/2025_GenAI_Code_Security_Report_Final.pdf5、https://cloud.tencent.com/developer/article/253126345%主流AI代码生成工具写出的代码漏洞占比的41%AI生成代码已占全球代码产出的评测为尺,风险现形:项目级AI生成代码安全性评测基准现有评估基准与真实开发场景脱节,严重高估了模型的实际安全能力。 当前代码安全评估基准大多针对孤立的代码片段,无法反映模型在真实仓库级开发环境中的表现,导致评估结果失真。现存问题A.S.E: A Repository-Level Benchmark for Evaluating Security inAI-Generated Code 揭示实际repo场景的代码生成安全隐患,探索各模型在该场景的能力边界Huggingface日榜周榜双第一评测为尺,风险现形:项目级AI生成代码安全性评测基准现有评估基准与真实开发场景脱节,严重高估了模型的实际安全能力。 当前代码安全评估基准大多针对孤立的代码片段,无法反映模型在真实仓库级开发环境中的表现,导致评估结果失真。现存问题A.S.E: A Repository-Level Benchmark for Evaluating Security inAI-Generated CodeA.S.E:业界首个项目级AI生成代码安全性评测框架所评估的 26 个主流大模型均存在代码正确性优先、安全防护滞后的问题,表现最好的模型代码质量得分高达 91.58,但安全得分仅 46.72,且无任何模型安全得分突破 50 分。当前大模型安全编码能力显著薄弱更大的推理预算可能引入冗余逻辑或偏离安全目标,反而降低代码安全性;简洁直接的快思考推理模式,在仓库级安全漏洞修复中更高效。仓库级场景需大模型处理跨文件调用链、构建系统依赖等需求,而多数大模型仅擅长孤立代码生成,仅极少数模型具备项目级安全理解能力。大模型代码片段级安全优势无法迁移“慢思考” 推理模式无助于安全生成评测为尺,风险现形:项目级AI生成代码安全性评测基准现有评估基准与真实开发场景脱节,严重高估了模型的实际安全能力。 当前代码安全评估基准大多针对孤立的代码片段,无法反映模型在真实仓库级开发环境中的表现,导致评估结果失真。现存问题A.S.E: A Repository-Level Benchmark for Evaluating Security inAI-Generated Code3.LLM代码安全生成的安全实践LLM代码安全左侧中右侧◆模型前侧安全因子◆模型使用侧安全因子◆生态代码安全CWE-BENCH-PYTHON:构建提示词质量评估基准个维度个等级34目标清晰度信息完整性逻辑一致性L0:工程师级规范L3:编程新手级规范L2L1实验验证种可落地的提示优化策略2思维链(Chain-of-Thought):通过分步推理强化安全考量,如 L3 级提示下 CWE-284 漏洞率从 49.84% 降至 43.41%。自我修正(Regenerate Act):模拟安全专家自检漏洞并修复,在 L2-L3 级复杂任务中表现突出,漏洞率显著下降。质量评估与链式思维的安全缓冲提示词质量对安全性的关键影响被严重低估,缺乏系统性研究与管理。现有工作过度关注模型的对抗性攻击和固有缺陷,却忽略了良性但质量差的提示词会显著增加代码缺陷率的严重问题。现存问题Is Your Prompt Poisoning Code? Defect Induction Rates and Security Mitigation StrategiesREFLEXGEN:低成本、高效率、高安全的轻量化解决方案增强检索生成技术(RAG)大模型自反思机制初始代码生成后,以输入与初始代码做 RAG 查询整合 RAG 安全知识,辅助大模型生成优化代码RAG 知识不足时修复缺陷,更新安全知识库大模型自反思初始代码缺陷,迭代优化并更新知识库,无需微调即可提升代码安全性。RAG 与大模型自我修正的协同防御当前提高大模型代码生成安全性的主流方法是微调模型或构建安全代码数据集,这些方法需要巨大的计算资源和标注成本,且无法在模型部
2025年LLM与安全代码报告,点击即可下载。报告格式为PDF,大小5.13M,页数32页,欢迎下载。



