国产玩家首次进入全球总榜前10 黑马!大模型竞技场榜单更新

龙争虎斗的大模型竞技场,今天突然更新:

国内大模型公司零一万物旗下的千亿参数闭源大模型, 跃升总榜第七,也成为榜上国产大模型第一

可以看到,它的成绩几乎与GPT-4-0125-preview持平。

同时,国内清华系大模型公司智谱华章的GLM-4-0116也杀进总榜,位居第15位。

这个结果来自累积超1170万全球用户的真实盲测投票数。

而且大模型竞技场最近修改了规则,只要大模型亮明身份后就不能再继续投票,杜绝了刷分的可能性。

再来看Yi-Large排名之前的前6名中,有4个模型来自GPT,另外有1个谷歌的Gemini,1个Anthropic的Claude。

零一万物创始人兼CEO李开复博士为此表示,LMSYS提供了一个第三方的、公正的平台,其他竞争对手也都非常认可。

而零一万物的 团队规模、参数规模、GPU算力都比排名更靠前的模型“小”。

Yi-Large成排名飞升黑马

大模型竞技场官推还给出了Yi-Large的更多成绩:

中文类别 中,Yi-Large和GLM-4两个国产大模型的表现不俗。

其中,Yi-Large成绩尤为突出,与GPT-4o并列总榜第一。

模型强度的置信区间 ,则如下图所示:

值得注意的是,为了提高大模型竞技场查询的整体质量,LMSYS还实施了重复数据删除机制,并出具了去除冗余查询后的榜单。

这个新机制旨在消除过度冗余的用户提示——如过度重复的“你好”——这类冗余提示可能会影响排行榜的准确性。

LMSYS公开表示,去除冗余查询后的榜单将在后续成为默认总榜。

目前,在去除冗余查询后的总榜中,Yi-Large的 Elo得分 更进一步,与Claude 3 Opus、GPT-4-0125-preview并列第四。

解释一下,Elo评分系统基于统计学原理设定,是当前国际公认的竞技水平评估标准。在这个评分系统里,每个参赛者都有基准评分,然后根据每场比赛调整评分。一旦低分选手击败高分选手,那么低分选手就会获得较多的分数,反之则较少。

LMSYS引入Elo评分系统,是为了保证大模型竞技场在最大程度上保证排名的客观公正。

而在分类别的排行榜中,Yi-Large同样表现亮眼。

编程能力、长提问及最新推出的 “艰难提示词” 的三个评测是LMSYS所给出的针对性榜单。这三个榜单以专业性与高难度著称,可称为当下大模型最烧脑的公开盲测。

编程能力 (Coding)排行榜上,Yi-Large 的Elo分数超过Anthropic当家旗舰模型Claude 3 Opus,仅低于GPT-4o,与GPT-4-Turbo、GPT-4并列第二。

长提问 (Longer Query)榜单上,Yi-Large同样位列全球第二,与GPT-4-Turbo、GPT-4、Claude 3 Opus并列。

艰难提示词 (Hard Prompts)则是LMSYS响应社区要求,在今天的排行榜刷新中新增的类别。

这个类别的提示词来自大模型竞技场用户提交的prompts,它们经过专门设计,更加复杂、要求更高且更加严格。

LMSYS增加这一类别榜单的原因,是官方认为这类提示能够测试最新语言模型面临挑战性任务时的性能。

这个榜单上,Yi-Large处理艰难提示的能力与GPT-4-Turbo、GPT-4、Claude 3 Opus并列第二。

这次表现亮眼的Yi-Large,是 一周前零一万物刚对外发布的闭源模型

当时官方给出的评测结果中,推理方面,Yi-Large在HumanEval和MATH都位列第一,超越GPT-4、Claude3 Sonnet、Gemini 1.5 Pro以及LLaMA3-70B-Instruct(都是时下大模型领域的佼佼者)。

据了解,Yi-Large的下一步是采用MoE架构的Yi-XLarge,目前已经启动训练。

大模型竞技场

大模型竞技场 (Chatbot Arena),似乎已经成为现在头部大模型的兵家必争之地。

此前,国外如谷歌Bard、OpenAI的神秘大模型gpt2-chatbot(不是GPT-2)、Mistral AI的Mistral Large等模型都在上面冲锋陷阵。

国内诸多玩家也都陆陆续续把自家孩子放进去考验真功夫。

大神卡帕西去年就夸过大模型竞技场很Awesome:

GPT-4o发布后,OpenAI的CEO奥特曼也转帖引用大模型竞技场盲测擂台的测试结果,直呼鹅妹子嘤。

发布它的开放研究组织(Large Model Systems Organization)发布,由加州大学伯克利分校的学生和教师、加州大学圣地亚哥分校、卡耐基梅隆大学合作创立。

虽然背后团队主要来自高校,但LMSYS的研究项目却相对更贴近产业。

他们不仅自己开发大语言模型,还向业内输出多种数据集(其推出的MT-Bench已是指令遵循方向的权威评测集)、评估工具,此外还开发分布式系统以加速大模型训练和推理,提供线上live大模型打擂台测试所需的算力。

在形式上,大模型竞技场 借鉴了搜索引擎时代的横向对比评测思路

它首先将所有上传评测的参赛模型随机两两配对,以匿名模型的形式呈现在用户面前。

在不知道模型型号名称的前提下,用户输入自己的提示词,模型A、模型B两侧分别生成两PK模型的真实结果,然后由用户在结果下方做出投票四选一:

A模型较佳/B模型较佳/两者平手/两者都不好。

提交投票后,可进行下一轮PK。

目前,大模型竞技场的评测过程涵盖了从用户直接参与投票、盲测、大规模投票和动态更新评分机制等多个方面,尽可能保证结果的客观和专业。

官方公开数据显示,本次更新的大模型竞技场,共有44款模型参赛。

既有开源高手,如Llama3-70B;也有全球各家大厂、创业公司的闭源模型。

最后,奉上一张 胜率热图 ,它涵盖了目前大模型竞技场上的所有大模型:

快来看看你pick的大模型胜率如何吧(手动狗头)~

大模型竞技场盲测平台:https://arena.lmsys.org/大模型竞技场评测排行(滚动更新):https://chat.lmsys.org/?leaderboard


好玩的手机游戏排行榜前十名是哪些?

好玩的手机游戏排行榜前十名是《奇迹之门》、《王者荣耀》、《刺激战场》、《绝地求生》、《斩月屠龙》、《仙道》、《列王的纷争》、《天堂M》、《部落冲突》、 《饥荒》。

1、《奇迹之门》

这是一款高自由度魔幻MMO手游大作,虚幻4引擎打造900万平方米无缝大世界,三次方空战实现360°自由对战,以次时代四维画面配合国内顶尖的配音团队为用户打造出3D IMAX电影级的视觉盛宴。

世界观恢弘庞大,剧情跌宕起伏,以唤醒女神拯救大陆为使命的主角光环,坐拥挚友美人,尽享公平竞技。拒绝单调任务,拥抱多线成长,游戏内不仅有趣味无穷的多重副本,还有激情跨服的军团战役,更有体贴入微的社交互动,为玩家带来全面革新的MMO游戏体验。

2、《仙道》

是一款纯正修仙题材的手机网游。绚丽的画面、丰富的剧情、独特的修仙风格,游戏拥有包括装备炼器、无敌萌宠、霸气战阵、炫酷神兵、灵脉修炼、多样副本等特色玩法,全新演绎即时战斗手游时代。

《仙道》作为一款修仙题材的手游,仙道手游集修仙,挖矿,种地等玩法元素于一体,清新唯美的画面下,玩家们将开启一段不同凡响的成仙之路,仙道手游中人物角色还可以随意搭配技能,充满了超高的自由度。

3、《列王的纷争》

是一款全球同服、全新多人RPG战争游戏,游戏中您可以和全世界的玩家交朋友或是和他们一同竞技,感受战争的乐趣,霸主荣耀虚位以待,各国语言实时翻译,建设宏伟的城市,参与热血的战争,与全球的战争游戏爱好者一同竞技。保卫你的城市,攻打其他的玩家,在攻防之间体验战争的热血沸腾。

手游排行榜2023前十名

手游排行榜2023前十名:《蛋仔派对》《桃源深处有人家》《泰拉瑞亚》《弹壳特攻队》《地铁跑酷》《Roblox》《糖果传奇》《Free fire》《Royal Match》《Mob Control》等。

1、《蛋仔派对》

《蛋仔派对》是网易研发的潮玩休闲竞技游戏,曾登上iOS免费榜榜首、挤进畅销榜TOP10,是2023年全球下载量最高的国产手游之一,拥有广泛的玩家用户群体。

《蛋仔派对》堪称2023年首个超级爆款,连续几个月来,围绕《蛋仔派对》的解读、猜测、广告软文层出不穷。在买购小编看来,这款休闲聚会向的手游,值得邀上三五好友,下载一玩。

2、《桃源深处有人家》

《桃源深处有人家》是一款国风模拟经营手游,是2023热门手游、人气最高的手游游戏之一。游戏以《千里江山图》的青绿画风为灵感,描绘出了一副古韵悠然的田园山水风光。

你可以跳出尘世,开拓一方净土,亲手搭建独属自己的田园小屋。另外游戏中融入了制陶、木雕、孔明灯等多种传统文化元素,能让玩家一边醉情山水,一边感受国风文化之美。

3、《泰拉瑞亚》

《泰拉瑞亚》是一款高自由度的沙盒游戏,已上线TapTap与App Store。《泰拉瑞亚》内容量非常丰富,游戏通过“向导”给予玩家引导和带动。向导会按照进程提供建议、观点和知识,让玩家逐步接触收集、建造、战斗等内容,而玩家在游戏中的探索与战斗则会对这个世界产生影响。

《泰拉瑞亚》世界的故事也相当庞大,其中包含了邪恶入侵、神祇创造等诸多元素,游戏中许多BOSS也是直接以克苏鲁神话为题材进行创作和延展的。

4、《弹壳特攻队》

《弹壳特攻队》是国产出海手游的爆款产品,曾一举拿下2022年韩国手游下载榜榜首,另外据Sensor Tower数据,其曾获得过3亿多的全球月流水;单论美国与中国市场,其长期在休闲子类维持着高位下载量和流水排名。

《弹壳特攻队》无疑是2022-2023年的最大黑马之一,它印证了手游市场休闲割草+肉鸽玩法的巨大潜力,还顺势引领了一波休闲割草热潮。

5、《地铁跑酷》

作为一款上市多年的手游,《地铁跑酷》经久不衰,在世界范围内广受欢迎。根据App Annie数据,《地铁跑酷》是2010—2019年间下载量最高的手游,远超同类型的《神庙逃亡》。

作为2023年下载量及人气最高的手游游戏之一,《地铁跑酷》在游戏玩法、内容、交互和商业化方面做了很多本地化尝试,这正是它在中国市场多年保持玩家高活跃度的重要原因。

6、《Roblox》

多人在线沙盒游戏《Roblox》一经问世,便风靡全球、经久不衰,有着超强的吸金能力,现已推出手游版本、PC版本。

手游版本多次跻身美国畅销榜单及美国下载TOP10,并于2023年2月位居Sensor Tower全球热门移动游戏下载量TOP10榜首。作为2023最火手游之一,《Roblox》在美国是手游模拟品类的绝对霸主,美国是其第一大市场。

7、《糖果传奇》

2012年11月,《糖果传奇》(candy crush saga)在iOS平台上线,没过多久就登上iOS免费游戏下载榜榜首。十年后的2023年,《糖果传奇》依然经久不衰,深受全世界玩家的喜爱。

2023年1月,《糖果传奇》在全球手游畅销榜上排名第四,属于罕见的可以在畅销榜、下载量两开花的产品。对开发商King母公司动视暴雪而言,《糖果传奇》无疑是一棵摇钱树,不仅吸金,还极具人气。

8、《Free fire》

2023热门手游,吃鸡手游中的佼佼者,全球第三款Google Play下载超过10亿次的游戏,由东南亚厂商Garena发行,玩家与收入主要来自巴西、泰国、墨西哥、印尼、马来西亚等市场。

该游戏在每个市场均设有本地化运营团队,他们会在游戏内容上做很多本地化尝试,以满足当地玩家的需求。

9、《Royal Match》

《Royal Match》(皇家比赛)是一款三消游戏,由土耳其厂商Dream Games开发,曾上线不到四个月,便在美国iOS游戏畅销榜中一路攀升至Top 20以内,最高拿下第16名。

相较于其他三消游戏,本作的一大特色就是采用了类似Supercell《皇室战争》的UX/UI设计,将三消玩法和简化版的meta玩法(三消以外的玩法),融入到这个极简的交互中,不仅在视觉上更胜一筹,同时让玩家无障碍的体验到消除和meta玩法带来的乐趣。

10、《Mob Control》

《Mob Control》(控制人群)是国外著名游戏运营商VOODOO打造的动作射击休闲手游。其最大特色在于将动作射击与休闲益智玩法进行完美的结合,玩家在关卡中要同时兼顾射击的精准度和角色增量的益智计算。

如果你热衷于动作射击玩法,或是益智手游的死忠玩家,又或是对这种融合了动作和益智的游戏情有独钟,那么一定不要错过《Mob Control》。

求手机游戏排行榜,前十有哪些?

手机游戏排行榜前十的有:《王者荣耀》、《绝地求生:全军出击》、《荒野行动》、《剑侠》、《4D极速沙滩赛车》、《红色坦克4D》、《镇魔》、《坦克前线帝国》、《舰指太平洋》、《红警天启的狂怒》。

1、《王者荣耀》

《王者荣耀》已经出了几十位英雄,定期也会推出新的英雄,英雄定位可分为法师、战士、坦克、刺客、射手、辅助,不同的英雄拥有不同的属性和技能。每个英雄英雄都有3个主动攻击技能和1个被动技能,在匹配模式下,玩家可以使用周免英雄和已经购买的英雄参加战斗。

2、《绝地求生:全军出击》

真实的武器与车辆,真实的房屋与草丛,真实的毒圈逃生,真实的射击体验,只有一个人/队伍会活下来!身临其境的感受屏住呼吸、肾上腺狂彪的紧张与刺激。地图广袤、地形丰富、地图元素多样!山坡、低谷、河流、草丛、高矮墙、民房、工厂、哨塔、摩托、越野车……探秘未知世界,总有惊喜等着你。

3、《荒野行动》

《荒野行动》是网易根据风靡全球的单机游戏《绝地求生大逃杀》打造而来的生存射击手机游戏,游戏完美的还原端游跳伞等标志性玩法,在手机上为你带来最刺激的吃鸡体验。高分辨率的画质设定,场景布光采用实时计算,光影效果细腻真实,人物模型和场景物件全部按1:1比例实体化,极致还原最逼真的丛林战场。

  • 声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
  • 本文地址:https://srwj168.com.cn/keji312/9824.html
与GPT PC 微软重新定义AI
口岸经济的塔城探索