最强数学大模型易主！阿里千问新模型成绩超GPT

作者： 2024年08月09日创投浏览

最强数学大模型，现在易主！

阿里千问大模型团队发布的Qwen2-Math，不仅超越了Llama 3.1-405B，也战胜了GPT-4o、Claude 3.5等一系列闭源模型。

而且还会解决竞赛级试题，在GPT-4只能做对一道的AIME 24中，Qwen2-Math答对的题目数量达到了两位数。

Qwen2-Math一共有三个参数量的版本——72B，7B和1.5B。

最强的72B版本，在MATH数据集上比GPT-4o多得了7分，按比例算高出了9.6%。

7B版本也用不到十分之一的参数量，超过了72B的开源数学模型 NuminaMath 。

而且这个NuminaMath来头不小，它的7B版本 在全球首届AIMO中获奖，奖项由数学大牛陶哲轩颁发 。

阿里高级算法专家林俊旸激动地宣布，千问团队把Qwen2模型变成了一个数学高手。

fast.ai创始人Jeremy Howard看了直呼amazing。

网友更是惊叹， 原来这才是真正的“草莓” ，这是开源的胜利，也是所有人的胜利。

超越GPT4o，会做竞赛级试题

如前文所说，Qwen2-Math共有72B、7B和1.5B三个参数规模，分别由对应规模的Qwen2基础模型改造而成。

在基础模型之上，团队使用精心设计的数学专用语料库进行了预训练，训练数据包含大规模高质量的数学网络文本、书籍、代码、考试题目，以及由Qwen2模型合成的数学预训练数据。

结果，在GSM8K、MATH等经典数学测试集上，Qwen2-Math-72B的数学能力都 超过了405B的Llama-3.1 。

这些数据集，涉及到问题涵盖了代数、几何、计数与概率、数论等多种类型。

除了这些英文的数据集，Qwen2-Math还专门挑战了中文数据集CMATH，还有高考试题。

在中文数据集上，1.5B版本的成绩就超过了70B的Llama 3.1，而且三个版本相当于同规模的Qwen2基础模型，成绩都有明显提升。

在Qwen2-Math的基础之上，千问团队还微调出了Instruct版本。

具体来说，团队基于Qwen2-Math-72B训练一个数学专用的奖励模型，将奖励信号与正误判断信号结合作为学习标签，再通过拒绝采样构建监督微调（SFT）数据，最后在SFT模型基础上使用GRPO方法优化。

在MATH数据集上的零样本测试显示， 1.5B的Instruct就能取得70%的准确率，比70B的Llama 3.1还高 。

此外，研究团队还引入了难度更大的OlympiadBench、CollegeMath和英译版高考试题等更困难的测试集。

作者让Qwen2-Math采用了贪心（greedy）、RM@8和Maj@8三种策略，结果无论是哪一种，Qwen2-Math的成绩全都超过了同规模的Llama 3.1。

中文数据集方面，Qwen2-Math还挑战了今年最新的中高考试题，与Llama 3.1相比优势十分明显。

值得一提的是，为了减少测试成绩当中的“水分”，千问团队专门 从训练数据集中去除了所有和测试集重叠的部分 。

而且除了精确匹配，还运用了更严格的13-gram去重策略，只要最长公共序列的比率应大于0.6就会被去除。

后训练的过程也是如此，涉及的数据集，甚至测试成绩中没展示的Aqua、SAT Math，全都被从数据当中剔除。

另外，Qwen2-Math-Instruct已经具备了解决一些简单的竞赛级试题的能力。

比如在AIME 24的30道题当中，Qwen2-Math-72B-Instruct用rm@256策略 能够做对11道 。

像GPT-4 Turbo、Claude 3 Opus和Gemini 1.5 PRo这些先进模型都只能做对一两道。

而且最小的1.5B版本也能在rm@256的条件下做对五道题，已经超过了这三家模型。

另外，Gemini 1.5 Pro有一个专门针对数学任务的版本，但也只能做对七八道题目，Qwen2-Math-72B-Instruct是 第一个做对的题目数量达到两位数的模型 。

在官方文档中，千问团队也展示了一些示例，比如奥赛级数学测试集 Math Odyssey 当中有这样一道题目。

这道题目涉及到组合数学和图论，具体又包括了完全图、二部图等概念。

此外还需要理解如何将这些概念应用于特定性质结构的构建，需要较强的抽象思维能力和对图论结构的深刻理解。

Qwen2-Math的解决方案是这样的，从中可以看出确实是运用到了图论方法。

最终，Qwen2-Math正确地回答了这道题目。

△中文为机翻，仅供参考

不过，目前发布的Qwen2-Math主要针对英文场景，中英双语版本将会在之后推出。

另外，根据Qwen2-Math的许可协议，该模型对大部分用户来说可以免费商用，但对于72B版本，如果每月活跃用户数超过1亿，就需要向千问团队申请许可了。

项目主页：https://qwenlm.github.io/zh/blog/qwen2-math/参考链接：https://x.com/JustinLin610/status/1821554112192012291

通义千问什么时候上线

通义千问app正在内部测试中。你想尽快看到这个软件，所以你想知道通义千问app的公开测试时间。接下来，深空手机游戏网小编将在下面分享该软件的公开测试时间。有兴趣了解的朋友应该来小编看看通义千问的在线时间。

通义千问app公测时间介绍

预计2023年9月2日，这是通义千问自己说的。

2020年1月，为解决移动淘宝推荐系统冷启动问题，阿里启动多模态大模型研发。 2021年，阿里先后发布了中国首款参数超过100亿的多模态大模型M6和语言大模型PLUG，称为“中文版GPT-3”。此后，该培训实现了世界上第一个10万亿参数人工智能模型；2022年9月，阿里发布了“通义”大模型系列。

继网络之后，阿里版的ChatGPT终于推出了。 4月7日，阿里巴巴云宣布，大型模型“通用问题”开始邀请测试。阿里巴巴云表示，该模型主要邀请企业用户进行体验测试，用户可以通过官方网站申请()，符合条件的用户可以参与体验。

接到邀请码后，界面新闻与“通义千问”聊天。

按照“通义千问”建议的提问方向(包括电影剧本、职场助理、写短文、写邮件)，我们先尝试了职场实际相关问题。

CLiB中文大模型能力评测榜单（持续更新）

CLiB中文大模型能力评测全景展示

CLiB评测平台已收录全球74款顶级大模型，囊括商业巨头（如GPT4、谷歌 Bard）与开源杰作（如百川、Qwen），覆盖全球顶尖机构。版本迭代至v1.15，新增8款顶尖模型，同时剔除过时选项，保持数据新鲜。最近更新时间锁定在2024年3月20日，从v1.12起，我们细化了开源模型排行榜，让每一步进步都可见。

新星登场- 2023年度评测亮点：GPT4、文心一言v2.2等新鲜血液注入，每个版本v1.x的模型增长显著：v1.5+7，v1.4+3，v1.3+3，v1.2+2，v1.1+3。评测维度进一步细化，包括数学解题、代码编写等专业挑战。

多维度实力较量- 综合评估：CLiB通过平均分类、信息抽取、阅读理解、数据分析等维度，为不同规模模型（10B以下、10B~20B、30B+）打造公正评价，分类、信息抽取和阅读理解各立门户，展示每项专长的卓越表现。

评分策略揭秘- 评分过程严谨，采用多维度打分并归一化至满分100分。 GPT4、文心一言等商业化模型与Qwen等开源之作同台竞技，展现公平较量。

CLiB不仅提供了深度洞察，还激发了产业界对模型性能的深入理解。通过公正评测，我们揭示了技术前沿，明确了差距，为大模型的发展指明了方向。这个公开的评测体系为所有参与者提供了有价值的参考，推动了大模型生态的健康繁荣。

全面对标OpenAI生态！智谱AI推出GLM-4大模型全家桶，GLMs上线，不会编程也能创建Agent

智能革命新纪元，智谱AI引领潮流！

智谱AI以卓越的创新力，推出了GLM-4大模型全家桶，犹如一颗璀璨的明珠，挑战OpenAI生态的前沿。这款新一代模型性能提升高达60%，在多项关键指标上逼近GPT-4，堪称技术里程碑。 GLM-4不仅支持长文本处理、多模态交互，还具备快速推理和并发执行的能力，大大降低了推理成本，让技术触手可及。

CEO张鹏强调，智谱AI构建了全方位的技术架构，涵盖了多模态、代码生成等多个领域，致力于追赶并超越OpenAI的技术深度。 GLM-4的亮点在于其个性化定制和智能体功能的整合，通过MaaS平台提供API，让非程序员也能轻松创建高效Agent。开源内核模型的引入，促进了技术共享和创新探索。

在实际应用中，GLM-4展现了卓越的性能。在评测中，它在语言理解、数学问题解决和跨语言任务上超越GPT-3.5，甚至在专业领域的中文对齐和特定能力上超越了GPT-4。从生成连续故事到执行复杂计算，GLM-4在网页浏览的准确度上更是超越了GPT-4，展示了强大的联网和Function Call能力，中文理解的深度更是超越了国际同行。

特别是，智谱AI的创新之作如CogView3和GLM-4V，分别在手部图像生成、语义理解以及表格转换等方面展现了令人瞩目的能力。通过它们，用户可以轻松地进行数据可视化，从屏幕内容中提取信息并执行任务，向着多模态智能助手的目标稳步迈进。

为了推动科技进步，智谱AI积极设立大模型基金，包括CCF-智谱和SMP-智谱，总额超过10亿元，支持科研与创业的创新实践。通过开源，智谱AI与全球2000多家伙伴紧密合作，从Transformer架构的开源到GLM-130B的发布，持续推动AI技术的开放与共享。

尽管起步相对较晚，但智谱AI的GLM系列凭借卓越的性能和广泛的商业应用，已成为亚洲在国际舞台上的重要代表。 2023年，ChatGLM-130B的迭代升级和开源下载量突破千万，彰显了公司在开源与商业化领域的实力。面对国际竞争的焦点，智谱AI坚定走MaaS路径，呼吁全球伙伴共同构建自主可控的AI未来，以开放创新的姿态迎接新的挑战和机遇。