阿里云发布最强开源大模型Qwen2 比闭源模型还强干翻Llama 3

作者： 2024年06月08日移动浏览

智东西 作者三北 编辑漠影

开源界最强大语言模型，Qwen2，来了！

智东西6月7日报道，今日，阿里云正式开源 通义千问Qwen2 系列模型，其中，成为 全球性能最强的开源模型 。

Qwen2有多强？一句话总结：在全球权威测评中，性能超过美国最强开源模型 Llama3-70B ，也超过文心4.0、豆包pro、混元pro等众多中国闭源大模型。

Qwen2缘何能打破开源大模型的性能天花板？今日，阿里云不仅将Qwen2系列模型开放 免费下载 ，还 首次披露 了背后的 炼模“秘籍” ，相关重要技术细节即将公开。

Qwen2下载地址:https://modelscope.cn/organization/qwen

▲所有人均可在魔搭社区和Hugging Face免费下载Qwen2系列模型

一、干翻Llama 3-70B，赶超闭源模型，Qwen2最强开源能力一览

本次，新开源的Qwen2系列包括五个尺寸的预训练和指令微调模型，分别是：Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B以及Qwen2-72B。

▲Qwen2系列包括五个尺寸的模型版本

相比今年2月推出的通义千问Qwen1.5，Qwen2实现了整体性能的代际飞跃。

在权威模型测评榜单OpenCompass中，此前开源的Qwen1.5-110B已领先于文心4.0等一众中国闭源模型。这也意味着，刚刚开源的 Qwen2-72B继续扩大与这些闭源模型的领先优势 。

▲Qwen1.5-110B已领先于多款闭源模型

对比 Llama3-70B、Mixtrl-8x22B 等当前最优开源模型，的能力也实现全面超越。

而在MMLU、GPQA、HumanEval、GSM8K、BBH、MT-Bench、Arena Hard、LiveCodeBench等十几项国际权威测评中，Qwen2-72B一举斩获世界冠军，在自然语言理解、知识、代码、数学及多语言等多项能力上表现突出，毫无悬念登上全球最强开源大模型的宝座。

▲Qwen2-72B在十几个全球权威测试中超过当前最优开源模型

而在小模型方面，Qwen2系列模型基本能够超越同等规模的最优开源模型甚至更大规模的模型。相比近期推出的最好的模型，Qwen2-7B-Instruct依然能在多个评测上取得显著的优势，尤其是代码及中文理解上。

▲Qwen2-7B-Instruct在多个评测上取得显著的优势

目前，Qwen2系列已上线魔搭社区ModelScope和阿里云百炼平台，开发者可在魔搭社区体验、下载模型，或通过阿里云百炼平台调用模型API。

二、一年发三代模型，稳坐开源大模型铁王座，阿里云首次披露创新“秘籍”

Qwen2的发布，距离阿里云今年2月推出Qwen1.5仅过去了三个多月。

相比上一代Qwen1.5，Qwen2 逻辑推理、多语言能力、长文本处理、代码、数学 等能力全面提升。

1、代码、数学能力大提升，碾压Llama 3

在代码方面，Qwen2的研发中融入了CodeQwen1.5的成功经验，实现了在多种编程语言上的显著效果提升；在数学方面，基于大规模且高质量的数据，Qwen2-72B-Instruct在多个测评中以碾压之势超过Llama 3-7B-Instruct。

▲Qwen2在代码、数学能力大大提升

2、支持128k长文本，开源智能体方案

如下图所示，在Needle in a Haystack测试集上，Qwen2-72B-Instruct能够完美处理上下文长度内的信息抽取任务。

同时，Qwen2系列中的其他模型的表现也十分突出：Qwen2-7B-Instruct几乎完美地处理长达128k的上下文；Qwen2-57B-A14B-Instruct则能处理64k的上下文长度；而该系列中的两个较小模型则支持32k的上下文长度。

▲Qwen2系列在长文本方面表现突出

除了长上下文模型，阿里云本次还开源了一个 智能体解决方案 ，用于高效处理100万tokens级别的上下文。

3、强化安全性，与GPT-4表现相当

下表展示了大型模型在四种多语言不安全查询类别，包括非法活动、欺诈、色情、隐私暴力中生成有害响应的比例。

通过显著性检验（P值），Qwen2-72B-Instruct模型在安全性方面与的表现相当，并且显著优于Mixtral-8x22B模型。Llama 3在处理多语言提示方面表现不佳，因此没有将其纳入比较。

▲Qwen2-72B-Instruct在安全性方面与GPT-4表现相当

模型迭代的速度和实力，让阿里云稳坐开源大模型铁王座。

2023年8月，阿里云成为国内 首个宣布开源自研模型的科技企业 ，推出通义千问第一代开源模型Qwen；2024年2月，1.5代开源模型Qwen1.5发布；不到4个月后，Qwen2开源，从而实现了全尺寸、全模态开源。

不到一年时间，Qwen系列的72B、110B模型多次 登顶HuggingFace 的Open LLM Leaderboard等开源模型榜单 。

▲Qwen-72B登顶HuggingFace开源大模型排行榜

▲Qwen1.5-110B登顶HuggingFace开源大模型排行榜

▲Qwen2-72B登顶HuggingFace开源大模型排行榜

▲在阿拉伯语榜单上，Qwen2-72B稳居第一

与此同时，阿里云还 首次披露Qwen2研发背后的多个创新方法 。

根据通义千问技术博客，在Qwen1.5系列中，只有32B和110B的模型使用了 GQA（分组查询注意力） 。这一次，所有尺寸的模型都使用了GQA，从而使得模型 推理大大加速，显存占用明显降低 。

上下文长度方面 ，Qwen2系列模型均在32k上下文数据上进行训练，可支持上下文处理；为了提升模型的多语言能力，团队还对除中英文以外的 27种语言 进行了增强，并针对性地优化了语言转换问题。

▲Qwen2对除中英文以外的27种语言进行了增强

在模型训练方面 ，团队结合了 有监督微调、反馈模型训练 以及 在线DPO 等方法，还采用了 在线模型合并 的方法减少对齐税。这些做法都大幅 提升了模型的基础能力以及模型的智能水平 。

在大模型后期精调过程中 ，通义千问团队在 训练规模化 的同时尽可能减少人工标注，采用自动方法获取高质量的指令和偏好数据，包括针对数学的拒绝采样、针对代码和指令遵循的代码执行反馈、针对创意写作的回译、针对角色扮演的Scalable Oversight等。

不久后，通义千问团队将推出Qwen2的 完整技术报告 。

三、超豪华生态阵容，模型下载超1600万，孵化模型应用超1500个

尽管大模型的开闭源之争的话题仍在持续，但开源对大模型生态的积极意义已成行业共识，而这也是阿里云坚持大模型开源的核心原因。

中国信息化百人会执委、阿里云副总裁安筱鹏曾以“爬珠峰”形象地阐述了开源的价值：“生态的价值就是开源的价值就是我派一架直升机，把你从海拔0米的地方运送到珠峰大本营5000米，剩下3000米你再爬。”

优质的开源模型，能推动大模型生态的繁荣，并让海量的开发者 站在巨人的肩膀上做创新 ，从阿里云Qwen系列的开源社区的反馈来看，这样的生态逻辑确实在奏效。

根据阿里云官方数据，Qwen系列模型近一个月内总下载量翻倍，已突破 1600万次 。同时，海内外开源社区已经出现了超过 1500款 基于Qwen二次开发的模型和应用。

事实上，自今年2月Qwen1.5发布前后，就有大量开发者催更Qwen2。6月7日Qwen2上线后，多个 重要的开源生态伙伴 火速宣布支持Qwen2，包括TensorRT-LLM、OpenVINO、OpenCompass、XTuner、LLaMA-Factory、Firefly、OpenBuddy、vLLM、Ollama等。

▲Qwen系列多个重要的开源生态伙伴

从全球开源大模型竞争格局来看，除了美国Llama开源生态，通义千问Qwen系列已成为全球开发者的另一主流选项。

一年前，业内人士普遍认为开源模型和头部闭源模型之间存在较大的代差；如今，开源模型已经显示出超越最强闭源模型的势头，关于“开源大模型不如闭源大模型”的论调已然成为伪命题。

开源和闭源模型的你追我赶、节节攀升，带来的将是企业及开发者更加广泛和丰富的模型组合选择，以及更低的AI落地门槛、更好的应用效果。

结语：大模型竞赛升级，开源模型大进化，该闭源派出招了

最近几个月，开源大模型和闭源大模型你追我赶，这场拉锯战愈演愈烈。

先是今年4月Meta发布的Llama 3-70B赶超Gemini Pro 1.5等一众闭源模型，被当作“开源模型将一举翻越GPT-4高峰”的标志；然后是今日阿里云推出的Qwen2-72B再次屠榜，不仅赶超Llama 3-70B，还干翻了一大批头部闭源模型，进一步推动大模型生态的发展。

虽然通往通用人工智能（AGI）的大门刚刚打开，但大模型应用创新的奇点还远没有到来，正如阿里云智能集团CTO周靖人所说，大模型还有很大一部分潜力没有真正被挖掘出来，当有越来越多的开发者、企业融入这一进程，将带来翻天覆地的变化。

而坚持开源开放是加速这一进程的最佳途径。自2023年8月起，阿里云不到一年时间就陆续推出Qwen、Qwen1.5、Qwen2三代开源模型，实现了全尺寸、全模态开源，为大模型开源生态提供了强大的引擎。

开源和闭源都是大模型产业的重要力量。当开源力量高歌猛进，下一步，闭源派又将如何应对，我们拭目以待！

沙漠之舟指什么

骆驼

什么骆驼，沙漠之舟呢

因为动物中，最耐劳的要算骆驼。一只骆驼，驮200千克重的货物，每天走40千米，能够在沙漠中连续走3天。空身时，它每小时可跑15千米，连续8小时不停。所以，用“沙漠之舟”来褒奖它，它是受之无愧的。在沙漠里行进，经常会遇到狂风四起，黄沙滚滚，天昏地暗的可怕情况。这时候，浓密的长睫毛就象一层厚帘子，挡住风沙，保护了眼睛。等大风沙过去了，她再站起来，抖掉身上的沙子，不声不响地继续前进……夏天，骄阳似火，沙漠的气温在50℃以上,在沙漠里行进,就象走在热锅上一样，寸步难行。然而，骆驼却一点也不在乎，它那宽大的蹄子走在沙漠上，象走平地一样，稳稳当当，陷不下去，而且脚底长着一层厚厚的角质垫，好象一只特别的“靴子”一点也不怕烫。骆驼最大的本领是，在沙漠中不停地跋涉，能十天半月不和水。原来，骆驼在干旱情况下，有防止水分失散的特殊生理功能。骆驼巨大的口鼻是保存水分的关键部位。骆驼鼻子内层呈蜗形卷，增大了呼出气体通过的面积。夜间，鼻子内层从呼出的气体中回收水分，同时冷却气体，使其低于体温8.3℃。据计算，骆驼的这些特殊能力可使它比人类呼出温热气体节省70%的水分。骆驼通常体温升高到40.5℃后才开始出汗。夜间，骆驼往往预先将自己的体温降至34℃以下，低于白天正常体温。第二天体温要升到出汗的温度点上，需要很长时间。这样，骆驼极少出汗，再加上很少撒尿，又节省了体内水分的消耗。沙漠中死于干渴的人，大多因血液中水分丧失，血液会变浓，体热不易散发，导致体温突然升高而死亡。而骆驼却能在脱水时仍保持血容量。骆驼是在几乎每一个器官都失去水分后才丧失血液内水分的。有意思的是，骆驼既能“节流”，也注意“开源”。它的胃分为3室，前两室附有众多的“水囊”，有贮水防旱的功效。所以，它一旦遇到水，便拼命喝水，除可以把水贮存在“水囊”中外，还能把水很快送到血液贮存起来，慢慢地消耗。骆驼在沙漠中长途跋涉，需要储备足够的能量。驼峰中贮藏脂肪，相当与全身重量的五分之一。它找不到东西吃时就靠这两个肉疙瘩内的脂肪来维持生命。同时，脂肪在氧化过程中还能产生水分，有助于维持生命活动时所需要的水。所以说，驼峰既是“食品仓库”，又是“水库”。