最强数学大模型易主!阿里千问新模型成绩超GPT

最强数学大模型,现在易主!

阿里千问大模型团队发布的Qwen2-Math,不仅超越了Llama 3.1-405B,也战胜了GPT-4o、Claude 3.5等一系列闭源模型。

而且还会解决竞赛级试题,在GPT-4只能做对一道的AIME 24中,Qwen2-Math答对的题目数量达到了两位数。

Qwen2-Math一共有三个参数量的版本——72B,7B和1.5B。

最强的72B版本,在MATH数据集上比GPT-4o多得了7分,按比例算高出了9.6%。

7B版本也用不到十分之一的参数量,超过了72B的开源数学模型 NuminaMath

而且这个NuminaMath来头不小,它的7B版本 在全球首届AIMO中获奖,奖项由数学大牛陶哲轩颁发

阿里高级算法专家林俊旸激动地宣布,千问团队把Qwen2模型变成了一个数学高手。

fast.ai创始人Jeremy Howard看了直呼amazing。

网友更是惊叹, 原来这才是真正的“草莓” ,这是开源的胜利,也是所有人的胜利。

超越GPT4o,会做竞赛级试题

如前文所说,Qwen2-Math共有72B、7B和1.5B三个参数规模,分别由对应规模的Qwen2基础模型改造而成。

在基础模型之上,团队使用精心设计的数学专用语料库进行了预训练,训练数据包含大规模高质量的数学网络文本、书籍、代码、考试题目,以及由Qwen2模型合成的数学预训练数据。

结果,在GSM8K、MATH等经典数学测试集上,Qwen2-Math-72B的数学能力都 超过了405B的Llama-3.1

这些数据集,涉及到问题涵盖了代数、几何、计数与概率、数论等多种类型。

除了这些英文的数据集,Qwen2-Math还专门挑战了中文数据集CMATH,还有高考试题。

在中文数据集上,1.5B版本的成绩就超过了70B的Llama 3.1,而且三个版本相当于同规模的Qwen2基础模型,成绩都有明显提升。

在Qwen2-Math的基础之上,千问团队还微调出了Instruct版本。

具体来说,团队基于Qwen2-Math-72B训练一个数学专用的奖励模型,将奖励信号与正误判断信号结合作为学习标签,再通过拒绝采样构建监督微调(SFT)数据,最后在SFT模型基础上使用GRPO方法优化。

在MATH数据集上的零样本测试显示, 1.5B的Instruct就能取得70%的准确率,比70B的Llama 3.1还高

此外,研究团队还引入了难度更大的OlympiadBench、CollegeMath和英译版高考试题等更困难的测试集。

作者让Qwen2-Math采用了贪心(greedy)、RM@8和Maj@8三种策略,结果无论是哪一种,Qwen2-Math的成绩全都超过了同规模的Llama 3.1。

中文数据集方面,Qwen2-Math还挑战了今年最新的中高考试题,与Llama 3.1相比优势十分明显。

值得一提的是,为了减少测试成绩当中的“水分”,千问团队专门 从训练数据集中去除了所有和测试集重叠的部分

而且除了精确匹配,还运用了更严格的13-gram去重策略,只要最长公共序列的比率应大于0.6就会被去除。

后训练的过程也是如此,涉及的数据集,甚至测试成绩中没展示的Aqua、SAT Math,全都被从数据当中剔除。

另外,Qwen2-Math-Instruct已经具备了解决一些简单的竞赛级试题的能力。

比如在AIME 24的30道题当中,Qwen2-Math-72B-Instruct用rm@256策略 能够做对11道

像GPT-4 Turbo、Claude 3 Opus和Gemini 1.5 PRo这些先进模型都只能做对一两道。

而且最小的1.5B版本也能在rm@256的条件下做对五道题,已经超过了这三家模型。

另外,Gemini 1.5 Pro有一个专门针对数学任务的版本,但也只能做对七八道题目,Qwen2-Math-72B-Instruct是 第一个做对的题目数量达到两位数的模型

在官方文档中,千问团队也展示了一些示例,比如奥赛级数学测试集 Math Odyssey 当中有这样一道题目。

这道题目涉及到组合数学和图论,具体又包括了完全图、二部图等概念。

此外还需要理解如何将这些概念应用于特定性质结构的构建,需要较强的抽象思维能力和对图论结构的深刻理解。

Qwen2-Math的解决方案是这样的,从中可以看出确实是运用到了图论方法。

最终,Qwen2-Math正确地回答了这道题目。

△中文为机翻,仅供参考

不过,目前发布的Qwen2-Math主要针对英文场景,中英双语版本将会在之后推出。

另外,根据Qwen2-Math的许可协议,该模型对大部分用户来说可以免费商用,但对于72B版本,如果每月活跃用户数超过1亿,就需要向千问团队申请许可了。

项目主页:https://qwenlm.github.io/zh/blog/qwen2-math/参考链接:https://x.com/JustinLin610/status/1821554112192012291


通义千问什么时候上线

通义千问app正在内部测试中。 你想尽快看到这个软件,所以你想知道通义千问app的公开测试时间。 接下来,深空手机游戏网小编将在下面分享该软件的公开测试时间。 有兴趣了解的朋友应该来小编看看通义千问的在线时间。

通义千问app公测时间介绍

预计2023年9月2日,这是通义千问自己说的。

2020年1月,为解决移动淘宝推荐系统冷启动问题,阿里启动多模态大模型研发。 2021年,阿里先后发布了中国首款参数超过100亿的多模态大模型M6和语言大模型PLUG,称为“中文版GPT-3”。 此后,该培训实现了世界上第一个10万亿参数人工智能模型;2022年9月,阿里发布了“通义”大模型系列。

继网络之后,阿里版的ChatGPT终于推出了。 4月7日,阿里巴巴云宣布,大型模型“通用问题”开始邀请测试。 阿里巴巴云表示,该模型主要邀请企业用户进行体验测试,用户可以通过官方网站申请(),符合条件的用户可以参与体验。

接到邀请码后,界面新闻与“通义千问”聊天。

按照“通义千问”建议的提问方向(包括电影剧本、职场助理、写短文、写邮件),我们先尝试了职场实际相关问题。

CLiB中文大模型能力评测榜单(持续更新)

CLiB中文大模型能力评测全景展示

CLiB评测平台已收录全球74款顶级大模型,囊括商业巨头(如GPT4、谷歌 Bard)与开源杰作(如百川、Qwen),覆盖全球顶尖机构。 版本迭代至v1.15,新增8款顶尖模型,同时剔除过时选项,保持数据新鲜。 最近更新时间锁定在2024年3月20日,从v1.12起,我们细化了开源模型排行榜,让每一步进步都可见。

新星登场- 2023年度评测亮点:GPT4、文心一言v2.2等新鲜血液注入,每个版本v1.x的模型增长显著:v1.5+7,v1.4+3,v1.3+3,v1.2+2,v1.1+3。 评测维度进一步细化,包括数学解题、代码编写等专业挑战。

多维度实力较量- 综合评估:CLiB通过平均分类、信息抽取、阅读理解、数据分析等维度,为不同规模模型(10B以下、10B~20B、30B+)打造公正评价,分类、信息抽取和阅读理解各立门户,展示每项专长的卓越表现。

评分策略揭秘- 评分过程严谨,采用多维度打分并归一化至满分100分。 GPT4、文心一言等商业化模型与Qwen等开源之作同台竞技,展现公平较量。

CLiB不仅提供了深度洞察,还激发了产业界对模型性能的深入理解。 通过公正评测,我们揭示了技术前沿,明确了差距,为大模型的发展指明了方向。 这个公开的评测体系为所有参与者提供了有价值的参考,推动了大模型生态的健康繁荣。

全面对标OpenAI生态!智谱AI推出GLM-4大模型全家桶,GLMs上线,不会编程也能创建Agent

智能革命新纪元,智谱AI引领潮流!

智谱AI以卓越的创新力,推出了GLM-4大模型全家桶,犹如一颗璀璨的明珠,挑战OpenAI生态的前沿。 这款新一代模型性能提升高达60%,在多项关键指标上逼近GPT-4,堪称技术里程碑。 GLM-4不仅支持长文本处理、多模态交互,还具备快速推理和并发执行的能力,大大降低了推理成本,让技术触手可及。

CEO张鹏强调,智谱AI构建了全方位的技术架构,涵盖了多模态、代码生成等多个领域,致力于追赶并超越OpenAI的技术深度。 GLM-4的亮点在于其个性化定制和智能体功能的整合,通过MaaS平台提供API,让非程序员也能轻松创建高效Agent。 开源内核模型的引入,促进了技术共享和创新探索。

在实际应用中,GLM-4展现了卓越的性能。 在评测中,它在语言理解、数学问题解决和跨语言任务上超越GPT-3.5,甚至在专业领域的中文对齐和特定能力上超越了GPT-4。 从生成连续故事到执行复杂计算,GLM-4在网页浏览的准确度上更是超越了GPT-4,展示了强大的联网和Function Call能力,中文理解的深度更是超越了国际同行。

特别是,智谱AI的创新之作如CogView3和GLM-4V,分别在手部图像生成、语义理解以及表格转换等方面展现了令人瞩目的能力。 通过它们,用户可以轻松地进行数据可视化,从屏幕内容中提取信息并执行任务,向着多模态智能助手的目标稳步迈进。

为了推动科技进步,智谱AI积极设立大模型基金,包括CCF-智谱和SMP-智谱,总额超过10亿元,支持科研与创业的创新实践。 通过开源,智谱AI与全球2000多家伙伴紧密合作,从Transformer架构的开源到GLM-130B的发布,持续推动AI技术的开放与共享。

尽管起步相对较晚,但智谱AI的GLM系列凭借卓越的性能和广泛的商业应用,已成为亚洲在国际舞台上的重要代表。 2023年,ChatGLM-130B的迭代升级和开源下载量突破千万,彰显了公司在开源与商业化领域的实力。 面对国际竞争的焦点,智谱AI坚定走MaaS路径,呼吁全球伙伴共同构建自主可控的AI未来,以开放创新的姿态迎接新的挑战和机遇。

  • 声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
  • 本文地址:https://srwj168.com.cn/chuangtou/9663.html
这些文物见证民族文化交流融合 铸牢共同体 中华一家亲
她赢的太难了 哭的伤心 笑的体面