阿里团队Qwen2.5-1M系列大模型技术报告
2025年01⽉26⽇Qwen2.5-1M技术报告安阳,于博⽂,李诚远,刘⼤铮,⻩斐,⻩浩⾔,江建东,屠建宏,张建伟,周景仁,林俊阳,党凯,杨柯馨,乐⽟,李美,孙敏敏,朱钦,⻔瑞,何涛,徐伟佳,尹⽂彪,⽂元,余俊,秦宙明,邱霞⻜,任兴彰,杨新⻰,李勇,徐志颖,张芝鹏章。于,夏⻜,任兴彰,杨新⻰,李勇,许志鹰,张⼦鹏章。奋团队,阿里巴巴集团摘要在本报告中,我们介绍了Qwen2.5-1M系列模型,将上下⽂⻓度扩展到100万标记。与之前的128K版本相⽐,Qwen2.5-1M系列通过⻓上下⽂的预训练和后训练,显著增强了⻓上下⽂功能。通过⻓数据合成、渐进式预训练和多阶段监督微调等关键技术,有效提⾼了⻓上下⽂的性能,同时降低了训练成本。为了推⼴⻓上下⽂模型在更⼴泛的⽤⼾群之间的使⽤,我们展⽰并开源了我们的推理框架。该框架包括⼀种⻓度外推⽅法,可以将模型的上下⽂⻓度扩展⾄⾄少四倍,甚⾄更多,⽽⽆需额外训练。为了降低推理成本,我们实现了稀疏注意⼒⽅法,以及⽤于部署场景的分块预填优化和⽤于提⾼精度的稀疏度优化⽅法。此外,我们详细介绍了推理引擎中的优化,包括内核优化,管道并⾏和调度优化,显著提⾼了整体推理性能。通过利⽤我们的推理框架,Qwen2.5-1M模型在具有100万标记上下⽂的场景中实现了显著的3倍⾄7倍的预填加速。该框架为使⽤开源模型进⾏⻓上下⽂处理的应⽤提供了⾼效且强⼤的解决⽅案。Qwen2.5-1M系列⽬前包括开源模型Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M,以及API访问模型Qwen2.5-Turbo。评估显⽰,Qwen2.5-1M模型在⻓⽂本任务中有了极⼤的改进,⽽在短⽂本情景中表现出⾊能⼒并未受到影响。具体来说,Qwen2.5-14B-Instruct-1M模型在⻓⽂本任务中显著优于GPT-4o-mini,⽀持⻓度为其⼋倍的上下⽂。Qwen2.5-14B-Instruct-1M100%⽂档顶部检索准确率50%⽂档深度检索准确率⽂件底部0%检索准确度上下⽂⻓度(# 词元)Qwen2.5-7B-Instruct-1MQwen2.5-Turbo⽂件顶部⽂件顶部⽂件底部⽂件底部上下⽂⻓度(# 令牌)上下⽂⻓度(# 令牌)图1: Qwen2.5-1M模型上的Passkey检索测试,⽂档⻓度达100万令牌。此测试评估了模型从装满不相关内容的超⻓⽂档中检索隐藏数字的能⼒。结果显⽰,Qwen2.5-1M模型可以准确地从包含多达100万令牌的⽂档中检索隐藏数字,仅在7B模型中观察到轻微错误。 作者按姓⽒字⺟顺序排序。∗11介绍⼤型语⾔模型(LLMs)通过展⽰出在理解、⽣成和与⼈类语⾔交互⽅⾯的出⾊能⼒,已经在⾃然语⾔处理领域引起了⾰命性变⾰(Brown等,2020年;OpenAI,2023年;2024年;Gemini团队,2024年;Anthropic,2023年a;b;2024年;Bai等,2023年;Yang等,2024年a;2025年;Touvron等,2023年a;b;Dubey等,2024年;Jiang等,2023年a;2024年a)。然⽽,有限的上下⽂⻓度限制了它们⼀次处理的⽂本量,使它们的能⼒仅限于较为简单的单⼀任务,并阻碍其处理需要⼤量信息处理或⽣成的复杂实际场景。例如,LLMs在依赖存储库级上下⽂进⾏代码⽣成和调试,或基于⼤量⽂档进⾏深⼊研究时会遇到困难。为了解决这个问题,增加LLMs的上下⽂窗⼝已经成为⼀个重要趋势。像GPT系列模型(Brown等,2020年;OpenAI,2023年;2024年)、LLama系列模型(Touvron等,2023年a;b;Dubey等,2024年)、以及我们的Qwen系列模型(Bai等,2023年;Yang等,2024年a;Qwen团队,2024年a;Hui等,2024年;Qwen团队,2024年c;Yang等,2024年b)已经从最初的4k或8k个标记的上下⽂窗⼝迅速扩展到当前的128k个标记。还有探索将LLMs的上下⽂⻓度延伸到1M个标记甚⾄更⻓的模型,如Gemini(Gemini团队,2024年)、GLM-9B-Chat-1M(Zeng等,2024年)、以及Gradient AI的Llama-3-1M模型(Pekelis等,2024年)。这种增⻓使得更复杂的应⽤成为可能,使⽤⼾和开发者都能利⽤这些模型增强的上下⽂能⼒进⾏创新的研究和开发。在这份报告中,我们将介绍Qwen2.5系列的1M上下⽂⻓度版本,即Qwen2.5-1M系列。就开源权重⽽⾔,我们发布了两个经调整指令的模型:Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M。与128K版本相⽐,这些模型展现出了显著增强的⻓上下⽂能⼒。此外,我们提供了⼀个基于专家混合(MoE)的API可访问模型,名为Qwen2.5-Turbo,其性能可与GPT-4o-mini媲美,但具有更⻓的上下⽂、更强的能⼒以及更具竞争⼒的定价。除了模型本⾝,我们还开源了针对⻓上下⽂处理优化的推理框架,使开发者能够更具成本效益地部署Qwen2.5-1M模型。这份报告概述了Qwen2.5-1M背后的关键⽅法论,重点放在两个主要⽅⾯上:• ⾼效的⻓上下⽂训练。Qwen2.5-1M的预训练包括强调⻓距离依赖性的合成数据,采⽤逐步延⻓策略以降低成本并提⾼效率。后训练解决了⻓指令数据集的稀缺性,使⽤了由代理⽣成的⼤规模指令数据。多阶段的监督微调(SFT)和强化学习(RL)确保短序列和⻓序列之间的平衡性能,优化与⼈类偏好的对⻬。• ⾼效的推理和部署。我们的推理框架包括三个关键组成部分:(1)⼀种⽆需训练的⻓度外推⽅法,使经过256k上下⽂⻓度训练的模型能够⽆缝扩展到1M上下⽂,⽽⽆需额外训练;(2)⼀种稀疏注意⼒机制,旨在降低推理成本,通过进⼀步优化来增强GPU内存效率,并与⻓度外推⽅法集成,以及优化稀疏配置来提⾼准确性;和(3)引擎级优化,如内核改进、流⽔线并⾏和增强调度。通过利⽤这些进步,我们的推理框架在1M上下⽂场景下将预填充速度提⾼了3到7倍。2 架构Qwen2.5-1M 系列基于 Qwen2.5 模型(Yang等,2025年)开发,⽀持⻓达1M令牌的上下⽂⻓度。⽬前包括两个⽤于开源的稠密模型,即 Qwen2.5-7B-1M,Qwen2.5-14B-1M,和⼀个⽤于API服务的MOE模型,即 Qwen2.5-Turbo。Qwen2.5-1M 模型保留了与 Qwen2.5 相同的基于Transformer的架构,确保推理兼容。具体来说,该架构包含了⽤于有效的KV缓存利⽤的分组查询注意⼒(GQA,Ainslie等,2023年),⽤于⾮线性转换的SwiGLU激活函数(Dauphin等,2017年),⽤于编码位置信息的旋转位置嵌⼊(RoPE,Su等,2024年),在注意⼒机制中使⽤的QKV偏置(Su,2023年),以及采⽤预正则化的RMSNorm(Jiang等,2023年)以确保稳定的训练。2表1:Qwen2.5-1M开放权重模型的模型架构和许可证。模型层 头(Q / KV) 关联嵌⼊ 上下⽂/⽣成⻓度许可证。7B2828/4⽆1M/8KApach
阿里团队Qwen2.5-1M系列大模型技术报告,点击即可下载。报告格式为PDF,大小3.27M,页数19页,欢迎下载。