大模型盲测榜单更新!Yi

智东西 作者 ZeR0 编辑 漠影

智东西5月21日报道,今日,知名大模型竞技场LMSYS Chatboat Arena盲测评测结果更新,国内大模型独角兽零一万物的千亿参数闭源大模型Yi-Large在最新总榜中排名世界第七,中国大模型中第一,超过Llama-3-70B、Claude 3 Sonnet;其中文分榜更是与GPT-4o并列第一。

LMSYS Chatboat Arena由第三方非营利组织LMSYS Org发布,其盲测结果来自至今积累超过1170万的全球用户真实投票数。此次共有44款模型参赛,既包含了开源大模型Llama 3-70B,也包含了各家大厂的闭源模型。

Chatbot Arena评测过程涵盖了从用户直接参与投票到盲测,再到大规模的投票和动态更新的评分机制等多个方面,这些因素共同作用,确保了评测的客观性、权威性和专业性,能够更准确地反映出大模型在实际应用中的表现。

上周OpenAI的GPT-4o的测试版本便以“im-also-a-good-gpt2-chatbot”的马甲闯进Chatbot Arena排行榜,排名超过GPT-4-Turbo、Gemini 1 .5 Pro、Claude 3 0pus、Llama-3-70b等一众国际大厂当家基座模型。OpenAI CEO Sam Altman也在Gpt-4o发布后亲自转帖引用LMSYS arena盲测擂台的测试结果。

从最新公布的Elo评分来看,GPT-4o以1287分高居榜首,GPT-4-Turbo、Gemini 1 5 Pro、Claude 3 Opus、Yi-Large等模型则以1240左右的评分位居第二梯队。

排名前6的模型分别来自海外巨头OpenAI、Google、Anthropic,且GPT-4、Gemini 1.5 Pro等模型均为万亿级别超大参数规模的旗舰模型,其他模型也都在大几千亿参数级别。

零一万物是总榜上唯一一家自家模型进入排名前十的中国大模型企业,按机构排序位于OpenAI、Google、Anthropic之后,排名第四。Yi-Large大模型以仅千亿参数量级排名第7,评分为1236。

其后Bard(Gemini Pro)、Llama-3-70b-Instruct、Claude 3 Sonnet的成绩则下滑至1200分左右;阿里巴巴的Qwen-Max大模型Elo分数为1186,排名第12;智谱AI的GLM-4大模型Elo分数为1175,排名第15。

为了提高Chatbot Arena查询的整体质量,LMSYS还实施了重复数据删除机制,并出具了去除冗余查询后的榜单。这个新机制旨在消除过度冗余的用户提示,如过度重复的“你好”。这类冗余提示可能会影响排行榜的准确性。LMSYS公开表示,去除冗余查询后的榜单将在后续成为默认榜单。

在去除冗余查询后的总榜中, Yi-Large的Elo得分更进一步,与Claude 3 Opus、GPT-4-0125-preview并列第四。

LMSYS Chatbot Arena 盲测竞技场公开投票地址: https://arena.lmsys.org/ LMSYS Chatbot Leaderboard 评测排行(滚动更新): https://chat.lmsys.org/?leaderboard

一、把一张GPU挤出更多价值,李开复谈大模型价格战影响

据零一万物CEO李开复博士透露,实现上述出色的成绩,Yi-Large大模型尺寸不到谷歌、OpenAI的1/10,训练用的GPU算力不到他们的1/10。在这背后,一年前零一万物的GPU算力只有谷歌、OpenAI的5%;而这些海外顶级AI团队都是千人级,零一万物的模型加基础设施团队则总共不到百人。

“我们能够把同样的一张GPU挤出更多的价值来,这是今天我们能够达到这些成果的一个重要理由。”李开复说,“如果只评估千亿模型,至少在这个排行榜上是世界第一,这些点我们还是很自豪,在一年前,我们落后OpenAI跟Google开始做大模型研发的时间点有7到10年;现在,我们跟着他们差距在6个月左右,这个大大的降低。”

为什么追得这么快?零一万物模型训练负责人黄文灏博士谈道,零一万物在模型训练上的每一步决策都是正确的,包括花了很长时间提升数据质量、做scaling Law,接下来还会不断提升数据质量和做scale up。

同时,零一万物非常重视Infra的建设,算法Infra是一个协同设计的过程,这样才能把算力发挥到比较好的水平。在此过程中,其人才团队是工程、Infra、算法三位一体的。

李开复谈道,零一万物希望从最小到最大的模型都能够做到中国最好,未来可能有更小的模型发布,都会力求在同样尺寸达到业界第一梯队,而且在代码、中文、英文等很多方面表现出色;有各种较小的简单应用机会,零一万物的打法是“一个都不放过”。

他也关注到近期的大模型API价格战。李开复认为,零一万物的定价还是非常合理的,也在花很大精力希望进一步降价。

“100万个token,花十几块还是花几块钱有很大差别吗?100万个token对很大的应用、很难的应用,我觉得我们是必然之选。”他谈道,零一万物的API横跨国内外,有信心在全球范畴是一个表现好、性价比合理的模型。“到今天为止,我们刚宣布的性能肯定是国内性价比最高。大家可能有用千token、百万token,大家可以自己测算一下。”

在他看来,整个行业每年推理成本降低到之前的1/10必然会发生,今天的API模型调用比例还非常低,如果能让更多人用上,这是一个非常利好的消息。

李开复相信大模型公司不会做出不理智的双输打法,技术是最重要的,如果技术不行,就纯粹靠贴钱赔钱去做生意。万一中国以后就是这么卷,大家宁可赔光通输也不让别人赢,那零一万物就走外国市场。

黄文灏分享说,零一万物没有碰到数据荒的问题,看到数据有很多可挖掘的潜力,最近在多模态上有一些发现,能进一步增加一到两个数量级的数据量。“弱智吧”数据对模型训练质量和数据多样性的帮助,便是来自零一万物团队的想法。

二、Yi-Large:中文榜与GPT-4o并列第一,挑战性任务评测排名第二

国内大模型厂商中,智谱GLM4、阿里Qwen Max、Qwen 1.5、零一万物Yi-Large、Yi-34B-chat此次都有参与盲测。

在总榜之外,LMSYS的语言类别新增了英语、中文、法文三种语言评测。在中文语言分榜上,Yi-Large与OpenAI GPT-4o的排名并列第一,Qwen-Max和GLM-4也都排名靠前。

编程能力、长提问及最新推出的 “艰难提示词” ,这三个评测是LMSYS所给出的针对性榜单,以专业性与高难度著称。

在编程能力(Coding)排行榜上,Yi-Large的Elo分数超过Anthropic旗舰模型Claude 3 Opus,仅低于GPT-4o,与GPT-4-Turbo、GPT-4并列第二。

在长提问(Longer Query)榜单上,Yi-Large同样位列全球第二,与GPT-4-Turbo、GPT-4、Claude 3 Opus并列。

艰难提示词(Hard Prompts)类别包含来自Arena的用户提交的提示,这些提示则经过专门设计,更加复杂、要求更高、更加严格。

LMSYS认为这类提示能够测试最新语言模型面临挑战性任务时的性能。在这一榜单上,Yi-Large与GPT-4-Turbo、GPT-4、Claude 3 Opus并列第二。

三、进入后benchmark时代,盲测机制提供更公正的大模型评估

如何为大模型给出客观公正的评测一直是业内广泛关注的话题。在经过去年乱象丛生的大模型评测浪潮之后,业界对于评测集的专业性和客观性更加重视。

像Chatbot Arena这样能够提供真实用户反馈、采用盲测机制以避免操纵结果、并且能够持续更新评分体系的评测平台,不仅能够为模型提供公正的评估,还能够通过大规模的用户参与,确保评测结果的真实性和权威性。

LMSYS Org发布的Chatbot Arena凭借其新颖的“竞技场”形式、测试团队的严谨性,成为目前全球业界公认的基准标杆。

Google DeepMind首席科学家Jeff Dean曾引用LMSYS Chatbot Arena的排名数据,来佐证Bard产品的性能。

OpenAI创始团队成员Andrej Karpathy发文夸赞说:“Chatbot Arena is awesome. ”

发布Chatbot Arena评测榜的LMSYS Org是一个开放的研究组织,由加州大学伯克利分校的学生和教师、加州大学圣地亚哥分校、卡耐基梅隆大学合作创立。

零一万物模型训练负责人黄文灏博士总结说,LMSYS评测机制的题来自真实用户聊天,动态随机变化,没人能预测题目分布,也就无法对模型做单一能力的优化,客观性更好;再加上它由用户来打分,评测结果会更接近实际应用中用户的偏好。

虽然主要人员出自高校,但LMSYS的研究项目十分贴近产业,他们不仅自己开发大语言模型,而且向业内输出多种数据集(其推出的MT-Bench已是指令遵循方向的权威评测集)、评估工具,还开发用于加速大模型训练和推理的分布式系统,提供线上live大模型打擂台测试所需的算力。

Chatbot Arena借鉴了搜索引擎时代的横向对比评测思路。它首先将所有上传评测的“参赛”模型随机两两配对,以匿名模型的形式呈现在用户面前;随后号召真实用户输入自己的提示词,在不知道模型型号名称的前提下,由真实用户对两个模型产品的作答给出评价。

在盲测平台https://arena.lmsys.org/上,大模型们两两相比,用户自主输入对大模型的提问,模型A、模型B两侧分别生成两PK模型的真实结果,用户在结果下方做出投票四选一:A模型较佳、B模型较佳,两者平手,或是两者都不好。提交后,可进行下一轮PK。

通过众筹真实用户来进行线上实时盲测和匿名投票,Chatbot Arena既能减少偏见的影响,又能最大概率避免基于测试集进行刷榜的可能性,以此增加最终成绩的客观性。在经过清洗和匿名化处理后,Chatbot Arena会公开所有用户投票数据。

在收集真实用户投票数据后,LMSYS Chatbot Arena还使用Elo评分系统来量化模型的表现,进一步优化评分机制,保证排名的客观公正。

Elo评分系统是一项基于统计学原理的权威性评价体系,由匈牙利裔美国物理学家Arpad Elo博士创立,旨在量化和评估各类对弈活动的竞技水平。Elo等级分制度在国际象棋、围棋、足球、篮球、电子竞技等运动中都发挥着重要作用。

在Elo评分系统中,每个参与者都会获得基准评分。每场比赛结束后,参与者的评分会基于比赛结果进行调整。系统会根据参与者评分来计算其赢得比赛的概率,一旦低分选手击败高分选手,那么低分选手就会获得较多的分数,反之则较少。

结语:后发有后发的优势,中国人做产品强于美国

随着大模型步入商业应用,模型的实际性能亟需通过具体应用场景的严格考验。整个行业都在探索一种更为客观、公正且权威的评估体系。大模型厂商正积极参与到像Chatbot Arena这样的评测平台中,通过实际的用户反馈和专业的评测机制来证明其产品的竞争力。

李开复认为,美国擅长做突破性科研,拥有创造力特别强的一批科学家,但中国人的聪明、勤奋、努力也不容忽视,零一万物把7-10年差距降低到只有6个月,就验证了做好一个模型绝对不只是看多能写论文、多能发明新的东西、先做或后做。

“做得最好的,才是最强的,”在他看来,后发有后发的优势,美国的创造性很值得学习,“但是比执行力、比做出一个很好的体验、比做产品、比商业模式,我觉得我们强于美国公司。”

零一万物的企业级模型方向初步用户在国外,这是因为其团队判断国外用户的付费意愿或金额比国内大很多。按国内现在To B卷的情况,生意做一单赔一单,这种情况在早期AI 1.0时代太多了,零一万物团队不想这样做。

“今天可以看到的模型表现,我们超过其他模型,也欢迎不认同的友商来LMSYS打擂台,证明我是错的。但是直到那一天发生,我们会继续说我们是最好的模型。”李开复说。


大模型(Large Model)常识综述(一)

大模型,即超大规模神经网络,其核心特征是庞大的参数量、多任务学习能力、对计算资源的渴求以及海量数据的支持。 在自然语言处理(NLP)领域,它们如巨擘般引领,国内与国外的模型各有千秋;而在多模态世界,大语言模型能驾驭文本、图像、视频和音频的交融。 现今,模型规模的标准随时间推移不断攀升,NLP模型一般需超过1亿参数,而在计算机视觉(CV)中,这一范围可能扩大到1亿到10亿之间。 这些模型的训练离不开强大的算力支持,如Google的TPU、华为的升腾910和A100等。 随着AI的迅猛发展,资金投入也随之激增,大约70%的资金倾注于AI基础设施,其中AI数字代理领域尤为抢眼。 生成式AI应用市场被划分为四大类别:工具型,如聊天机器人和办公软件,竞争激烈,依赖底层模型和精准定位;通用软件,如AI助手,竞争格局稳定,焦点在于AI与实际场景的无缝融合;行业软件,如金融和医疗,尽管在企业端的成熟度较低,但智能硬件如智能汽车在感知与决策上面临严峻挑战。 商业模式上,功能订阅、按需付费与产品销售并存,C端应用相对成熟,而B端则更多元,ToB场景的落地难度相对较高,ToG其次,ToC则较为顺畅。 在国内,大模型商业化初期主要聚焦于教育和科研机构,产品与用户付费阶段仍需时间打磨。 各大提供商各有特色,网络和腾讯主要通过提供算力服务盈利,华为和科大讯飞则倾向于通过API销售策略来拓展市场。 百川智能凭借清晰的战略路径和市场布局,稳步前行。 尽管大模型的性能强大,但商业化之路尚不明朗。 例如,360主要侧重于ToB市场。 ToC场景虽然相似,但ToB市场被视为未来的竞争焦点。 网络凭借强大的社区支持和企业化的千帆计划,以及学术交流平台飞浆,展现了其实力;阿里云的ModelScope在连接性和社区活跃度上有待提升,OpenXLab则低调但拥有优质应用,如动画生成器。 Hugging Face以其全面的模型、应用和文档库,成为行业的领头羊。 而对于模型能力的评估,LLM排行榜提供了重要参考,同时,评测榜单如AlpacaEval、CLiB、C-Eval和SuperCLUE等不断更新,为开发者和用户提供了实时的性能评价。

GTC2024:理想汽车怎么玩儿转大模型

在英伟达GTC2024的AI 驱动汽车科技创新发展的会议上,理想汽车智能空间算法首席科学家陈伟介绍了理想智能座舱领域人机交互方面的进展。

陈伟介绍了理想智能座舱人机交互的技术理念,基于大模型Mind GPT的新型的空间交互技术和产品,Mind GPT背后的AI工程架构是如何实现的。

以下是陈伟演讲内容整理,在不影响原意的基础上略有整理和删减。

注:关注“智车引擎”公众号,并回复数字“4”,将获得本场讲演的PDF。

人机交互的技术理念

人机交互的界面,我们认为正在从二维的平面走向物理世界下面三维的空间。在这样的三维空间下,人与机器之间的交互方式,正在从人适应机器转变为机器来主动适应人,那么只有这样才能让人与机器之间的交互更加自然。

而在我们整个的空间加交互的架构下面,融合了语音、视觉、触控等多模态的感知信息,致力于为用户提供可以媲美人与人交互的自然的交互体验。那么承载整个三维空间交互的AI助手就是理想同学,我们期待理想同学能够成为每一个车主家庭的数字成员,让车内每个人都能够轻松的使用AI。

在李想同学背后涵盖了从感知智能到认知智能的多项AI的技术,覆盖了感知、理解、表达三大的能力。其中借助全车麦克风以及摄像头的强大的传感器,理想同学具备了听、看和触摸的多模态感知能力。

而在端和云强大算力的加持下,理想同学能够充分的理解语言、理解用户、理解世界,并给出自然而且有价值的回答。最后借助智能空间的全景声以及多屏显示的能力,理想同学的回复信息得到了充分的表达,为用户提供了沉浸式的交互体验,不断加强人与车的情感连接。目前,以感知和表达的代表的感知智能已经走向了成熟,但是理解代表的认知智能能在发展中,直到22年年底的时候,大模型的出现带来了一次认知技术上面的变革。

众所周知,人工智能的三要素是数据算法和算力。

伴随着互联网、移动互联网、车联网的兴起,整个网络积累的海量的数据可以用于AI大批量的学习。截止到2023年的时候,全球已经有55亿的移动用户,同时在过去10余年中,以英伟达的GPU为代表的人工智能处理的能力在惊人的增长,令人震撼的是过去10年的算力已经增长了1000倍,这种进步并不来自于摩尔定律的预测,而是来自于全新的结构性的变化。

同时 AI算法伴随着深度学习的兴起,迎来了新一轮的技术浪潮。2016年AlphaGo战胜人类是人工智能发展历史上的里程碑的事件,之后2017年transformer的提出奠定了如今基础的神经网络架构。

随后 open AI陆续推出了GPT1一直到GPT3,那么模型的规模在急速的扩大,一直到2022年11月基于大模型GPT3.5的Chat GPT震惊了全世界。大模型的兴起变革了AI模型的训练范式,带来了新一轮的认知革命,也迎来了通往通用人工智能的曙光。那么整个AI在经历了计算智能、感知智能的突破以后,迎来了认知智能技术上的爆发,经历了2023年大模型技术井喷式的发展之后,行业现在也逐步开始共识,基于大语言模型,Agent的技术将是走向AGI的关键路径之一。

那么大语言模型对于理想这边智能空间的空间交互也非常的关键,李想同学的智能化水平的提升也急需借助于大语言模型和Agent的技术来实现整个产品体验上新的突破。

为此,我们在2023年6月份发布了我们的多模态认知大模型——MindGPT。结合我们多模态感知技术和大语言模型MindGPT,我们全面升级了空间交互的能力,基于多模态感知能力,我们可以充分的感知整个智能空间的各种模态的信息,并且把它转化为了人类的语言。

我们基于自研的Taskfomer结构设计了面向Agent的大模型MindGPT。那么基于MindGPT就可以更好的对人类语言进行理解进行反馈,更好的完成人与机器之间的交互。

那么接下来我就分别和大家介绍一下在空间交互这个体系下面的两个核心技术,一个是多模态感知,一个是MindGPT。

在多模态感知方向上,感知技术现在已经逐渐在从小模型+流水线级联的方式,升级为了端到端的大模型。我们在内部我们这样的端到端的感知类的大模型称之为MindGPT—MP是multi model perception的简称。

那么为了打造面向智能空间的空间动态感知的技术,我们在信号、语音、视觉这样感知领域都实现了技术的创新和突破。那么这里面也列出了我们在过去的一年间发表的一些论文,大家也可以参考。

MindGPT—MP使用了海量的视听数据,进行了自监督学习和多任务的精调,借助整个全车麦克风以及前后排的摄像头,理想同学能够同步感知多路音频和视觉的信号,经过信号的分离、增强、编码、融合等前处理的技术以后,可以让车内的用户定位和人声分离都更加的精准。理想同学就能像人一样边看边听边听边看,同时能够实现更强的多语种、多多语言、多方言、多任务的感知能力。

理想同学在交谈的过程中能够快速准确的知道谁在说、在说什么内容,情绪怎么样,发生了哪些有趣的事儿?

我希望和大家介绍一下我们在多模态交互上面的一些能力,我们也陆续发布了多个创新的多模态感知能力。

第一个是多模态的指代,我们希望在车里面能够产生开窗、开灯,打开屏幕、控制座椅这样的一些小需求的时候,不用让用户说非常冗长的话,也不用担心用户一直想不起来这个东西叫什么,而出现了交互上的坎坷,我们可以用更加简单省力的指代的方式,用一个手指来指代,比如说这个那个来完成。

目前指代的方向其实覆盖了全车的各个方向,同时理想同学也能看得懂指代更多的人和物品,那么接入更多的空车和体验上的交互,比如说可以说把那个屏打开,那么理想同学就会自己学习,因为你是要打那个方向上的屏幕,他会更加熟悉车里的每一个地方,更好的熟悉每个家人的需求。

那么第二个多模态的可辨析的说,理想同学可也能够读懂电影海报内容,可以随意表达。孩子即便不认识字,也可以根据海报内容描述自己想要的内容,那么最后快速的实现对于和车之间的交互。

最后其实就是我们的方言自由说,在这种方言自由说的能力下面,我们现在可以用一个模型就能实现这种9种这种多方言的自由感知。

MindGPT能做什么?

以MindGPT为核心,我们逐渐构建了感知、规划、记忆、工具、行动的完整的Agent的能力,其中MindGPT基座模型使用了自研的Taskformer的结构,那么我们在整个MindGPT的训练中进行了充分的自监督学习,然后在整个学习世界知识的同时,我们也重点在车载场景的15个重点领域进行了知识的加强。在这个基础上,其实基于我们整个在车载场景里面重要的三个大的场景和领域,用车出行和娱乐。

我们使用了sft和rlhf这样一系列的训练以后,能够覆盖在这三大场景里面的大概110多个领域,大概有1000多种的专属的能力,能够让MindGPT具备了理解生成、知识记忆和推理这三大的能力。

MindGPT作为整个大模型的控制器,它可以连接外部的Model Zoo和APIZoo,那么通过大模型对于用户输入的理解和思考,有条理的进行任务的规划,独立的完成自己擅长的部分,同时能够调度外部的API和专用模型,解决自己不擅长的部分,持续能够拓宽大模型能力的覆盖。比如说其实我们也使用了RAG的技术,能够通过大模型去连接搜索的能力,然后通过搜索增强就能够时刻获取更新更准确的信息了。

同时 MindGPT也建设了记忆网络。因为李想同学是希望能够面向全家人服务全家人的,那么所以理想同学应该理解和明白会懂每一位家人。那么因此记忆非常重要,我们可以让两个同学能够基于和之前不同的人之间的历史的对话,能够记住用户的偏好和习惯,同时理解每一个用户目前的状态,从而让理想同学和人之间的交互更加个性化,也更加理解用户。

那么最后MindGPT的在线强化学习能力,能够基于用户的反馈和纠偏,不断能够迭代自身的能力,让理想同学越用越好用。

2023年12月份的时候,我们的MindGPT也参加了行业权威的中文大模型评测,C-Ezal和CMMLU,并且在这两个榜单上取得了双榜第一的成绩。而也就在2023年的12月份,我们通过理想的OTA5.0向用户推送了全新的MindGPT。

MindGPTMind上线以后的理想同学在用车、娱乐和出行等多个场景里面,都展现了非常强的人机交互能力。

大模型的工程化

在大模型工程侧,我们主要分为两部分,一部分是大模型的训练,另外一部分是大模型的推理。

大模型的训练平台liPTM LLM pretrain Model的平台实现大模型的密集训练,基于大模型推理引擎LisaRT-LLM模型,它的推理服务实现了大模型的落地应用,这两部分的工作都基于英伟达GPU来完成的。

那么接下来其实就会重点介绍一下里PTM和LisaRT-LLM我们这两部分的工作。

首先想介绍一下我们整个的推理的服务,那么也就是MindGPT的云服务的这种架构,我们针对整个大模型的特点,设计了整个端云融合的MindGPT的推理服务体系,那么在整个架构图里面字底向上其实包括了针对业务场景优化的类似LisaRT-LLM的大模型的推理引擎。

第二就是和LisaRT-LLM结合的大模型的调度和推进的平台。那么这个平台其实整个在服务上面的设计,就是希望它能够做到推理服务的编排、请求的调度、模型部署这样的一些能力,能够结合模型的类型业务的场景,包括Continuous Batching的这样的一些因素能够实时将生成的这种请求调度是最新的一些推理的后端,实现最优的性能和吞吐。

第三部分,其实是Taskformer中控服务,那么这个服务其实就实现了整个大目前用户所必需的一些数据库的集成检索,增强规划和记忆的能力。那么再往上其实就是我们的SCI SDK,那么有了这样的SDK以后,就更好的去服务我们的应用的集成,在这个 SDK里面其实它有本地端的AI能力业务,我们直接云端的能力,那么它实现了端云一体化的模型能力的输出。

为了支撑整个百亿千亿级的MindGPT大模型的高效迭代,你看我们也自研了TB级吞吐的大数据的数据系统LiARK。

那么基于LiARK,就会支撑我们的这种千亿级参数这个大规模的训练系统LiPTM。为了加速整个大模型数据集的高效生产,我们其实组合了像CPU GPU的能力,然后构建了高性能的分布式的数据的任务的集群,来处理这种海量的原始数据。因为对于训练来说,其实除了整个算力之外,其实数据本身以及数据的传输也是非常重要的。

那第二件事其实就是为了加速整个千亿级大模型的高效训练,我们在使用了这种比较领先的模型结构和高性能的训练算子以及高效的训练策略的同时,其实也实现了4D的并行训练的模式,这4D就包括了像数据并行、 TCL并行、流水线并行和序列并行这样的一些训练模式,那么有了这些模式以后才能有机会及我们的算力的设备及我们的GPU去完成更大规模的大模型的训练。

千亿级的这种大模型的这种训练里,PTM它其实在整个训练速度和效率上,其实目前我们达到了还算不错的效果。目前在基座的这个训练阶段,训练速度我们用像TOKEN/秒或者是sample/秒来评估的话,那么在适配的相同的模型架构以后,在相同的训练集下,训练过程中的速度就像图中所示,那么是HF的transformer的5.12倍,高于DeepSpeed的transformer的1.6倍和ColossalAI的相对于HF的3.25倍,就是相对来说我们对于HF transformer的这个效果的相对的提升来说,也是最高的。

在SFT阶段整个训练速度,在适配的相同模型结构以后,在相同训练集下面,整个训练的过程也如图所示,它是这个目前行业里面就是最好开源能力的3倍以上;在强化学习RHF训练速度上面是DeepSpeed大概3.1倍左右;从吞吐力上,在适配的相同模型结构以后,在相同训练集下面TFlOPS相比DeepSpeed也要快一些。这是在整个训练的过程中,其实整个对标的情况。

当然就这块我觉得不管是目前开源的社区,还是各个公司大家自己预训练的平台上,整个进步都是非常快的。我们这块其实整个的这种迭代速度也在持续的根据我们的模型结构做更深入的进行训练的这种优化和定制。

我们其实也在做这个大模型落地应用的推理的工作,那么最核心的其实就是这个自研了LisaRT-LLM大模型的推理引擎,这一块的话其实就可以完成像百亿千亿级的参数量大模型的落地。

首先就是对于GPT这种结构的模型,我们其实跟进了一些这个行业先进的一些推理加速的方案,比如说像FusedMHA或FlashAttention这样的方案,把核心算子优先加速起来,同时就是为了提升整个吞吐力的话,我们其实使用了Continuous Batching这样的方式去提升整个服务的并发量,然后最后再通过像tppp这种结合的方式,实现整个单卡或多卡的这种模型的并行,然后来应对这种千亿级参数量的这种大模型最终的落地。

我们也结合了我们MindGPT的业务场景和英伟达在英伟达这个 SRT-LLM的这个团队,我们做了非常深入的合作,进一步来提升了这个性能,然后降低推理成本。

我们主要做的工作就包括了三部分。

第一个就是说我们就是设定了比较明确的优化目标,就是能够在产品性能要求的情况下,一般来说我们就是整个Prefill延迟大概控制在了500 500毫秒以内,然后然后我们解码的速度控制在了20~30token/秒左右,然后尽量的去把我们的服务吞吐量去撑上。

第二件事其实就是我们也在围绕MindGPT的业务场景做了定制的优化,比如说现在缓存通用的一些泡沫的结果,做一些像Prefuse的一些catch什么的,然后根据这个生成的文本长度和性能要求,针对不同的垂域去选择对应的调度优化的策略。

第三个其实就跟英伟达SRT-LLM团队的这种合作,在一些核心算子,我们可以用TRT-LLm的这个能力直接来实现,那么这块其实对我们的助力也非常大。

通过这个上述的LisaRT-LLM的优化方案以后,其实我们在2023年Q4完成MindGPT推理服务的成功的落地。这块也是伴随着整个OTA在李想同学中这个MindGPT的上线来一起完成的。这块当时我们也在跟业界的优秀的开源的LLM的推理引擎做了性能的对比,那么测试的方法其实就是使用了线上的真实数据,然后固定QPS来做压测,然后在Prefill在500毫秒以内,然后解码速度在20Token/秒以上,这样的性能要求下,大概去测试一下整个推理服务最大的吞吐量。

那么图上的这个推理框架大的分别就是TGI的V1.1.0、vLLM的2.0和LisaRT-LLM10月份的版本。

那么这三个比完了以后,其实整个可以看到基于目前就是理想同学的场景,就我们实际车载的场景来看的话,其实测试结果在a800上面,LisaRT-LLM的这个吞吐率相比vLLM大概有1.3倍以上的提升。

这张图就可以看到就是这三个推理框架Prefill的延迟,随着QPS的压力增大以后的变化曲线,我们可以看到Prefill Latency这个纵坐标,当小于500毫秒的时候能达到的最大QPS,因为超过500毫秒,用户能够明显感受到就会响应非常的慢,就很难达到我们产品上的需求了。

因此就是从这个曲线可以看到,就在这种场景下,这个LisaRT-LLM也具备具备了相对较高的并发的负载的能力。

如何看待一加+哈苏,跨界是噱头还是真能提升拍照?

手机跨界相机品牌,这种跨界算是收益最高的了吧。 既有营销效果,对产品也有实实在在的提升。 手机就这么大,所以拍照的硬件层面一定是有天花板的,后续主要还是要看算法、调教。 而相机品牌的加入如果能产生良好的化学反应,他们近百年的丰富行业经验会对手机拍照有质的改变。 如果没记错的话,华为x徕卡组合称霸DxO是合作后的第二年还是第三年开始。 其实,此次一加和哈苏合作,更多的意义在于表明一加手机把影像放到了未来几年做产品的第一重要位置。 想想,一加手机产品已经有性能体验上的优势,在高帧屏体验方面又领先行业,如果再加个影像优势的话,这款手机就真找不到短板了,其对市场的吸引力可想而知。 所以,刘作虎说的“力争做到影像功能第一”,应该是一加的影像表现相比以往会有“质”的提升,至于能否霸榜DxO,其实意义不大,大家也没必要太揪着不放。 单就今天看到的那两张一加9样张,哈苏味真的浓烈啊。 以那个小孩子的照片来说,色彩表现真的很有哈苏味了,哈苏的标志性颜色可以说得到了非常好的还原。 而那个老奶奶照片,更多的是细节和质感的体现,明暗细节感觉不像是手机所拍,如果不说还真以为是哪个单反或是直接用哈苏相机拍摄的呢~~ 至于能不能打榜DxO,我觉得很有可能啊。 华为现在高端产品出货量有限,再打拍照也没太多意义,很可能以后会退出。 Vivo虽说志在拍照,但从不送测DxO啊,所以真实表现如何只是市场口碑,没有DxO打榜排名。 所以,如果一加9手机送测,还真有可能有惊喜呢!IT168感谢你的阅读~ 一加+哈苏组合出道,侧面肯定了华为和vivo在影像领域的合作。 可以肯定的是,这次联合将提升一加手机的影像设置 一加将携手哈苏打造“一加丨哈苏 手机影像系统”,建立哈苏自然色彩优化方案。 通过舒适自然的色彩表现,全面提升一加手机的影像品质。 同时,一加还将推出“哈苏专业模式”,配合传感器级别的色彩校准,为专业用户提供充分的后期处理空间。 一加通过反复的调校还原了哈苏镜间快门独有的机械声,并设计出风格独特的一加哈苏拍照水印。 未来,一加和哈苏在影像领域的合作还将延伸到更多维度,双方将会共同定义影像体验的技术标准,联合研发创新影像技术,持续完善一加丨哈苏 手机影像系统。 其实霸榜、全球第一这东西营销意义更大,而且“拍照第一”这个事算是江山代有人才出,一直是动态平衡的。 刘作虎这么说更多是表决心,大家听听就好,主要还是看一加产品怎么样到时候。 就像一加8 Pro手机的拍照,在DxO上排名并不高吧,但在 科技 美学组织的用户盲测中,相比华为P40 Pro+、三星S20 Ultra和小米10 Pro,那可是获得了最多数量的单项第一啊,这才是真牛逼! 此次一加和哈苏合作后,哈苏在色彩方面,特别是人像方面的调教经验就能无私共享给一加,相信一加9系列手机的拍照效果会大大提升。 能不能排名DxO榜单第一我不关注,我只看中哈苏的标志性颜色和质感在一加手机上的呈现。

  • 声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
  • 本文地址:https://srwj168.com.cn/keji312/10242.html
两男一女性张力爆表! 老美又一圈钱电影!网球冠军床戏博眼球
凉山村寨纪行 习近平总书记关切事