大模型想落地 先让大家用得起

题图|视觉中国

自2023年开始,全球范围掀起了以大模型为代表的生成式AI浪潮。过去一年,但凡和算力、算法、数据、网络安全、云计算、AI相关的企业和题材,都在AI大模型题材的风口上,被追捧上了天。但从技术革新的角度看,国产大模型并没有给生产生活方式带来质的改变。

前不久,李开复在一场采访中直言不讳地指出,对于美国人来说,“ChatGPT时刻”发生在17个月前,但中国用户却还在翘首以待属于自己的“AI时刻”。

归根结底,国内的聊天机器人和工具做得还不够好。“中国必须拥有自己的ChatGPT,才能激发公众对AI技术的极大兴趣,并推动其在更广泛领域的应用和投资。”李开复直言。

与此同时,不断有大佬高喊“不能落地的大模型没有意义”。

比如李彦宏就公开表示,中国现在数百个基础模型是对社会资源巨大的浪费,更多的资源应该如何探索与各行各业的结合,以及下一个超级应用的可能性。

在需求端,市场其实非常迫切想要找到能快速落地、产生效益的AI产品和服务。对于大模型开发者和应用者来说,卷参数已经没有任何意义。在火山引擎总裁谭待看来,“如何让更多人、各行各业用起来”,才是现阶段对于“好模型”的最佳定义。

多位行业人士判断,今年将是中国生成式AI应用的爆发元年。而当下打开市场的关键突破口,“价格”成为了行业的新共识。

用起来是关键

在刚刚结束的春季功能更新会上,OpenAI宣布了其最新模型GPT-4o,不仅性能有大幅提升,价格也下调了50%。要知道,这是自2023年初以来,OpenAI进行的第4次降价。

在当前市场上,大模型通常是以1000 tokens为计费单元。以GPT4为例,从去年3月发布至今,OpenAI把GPT4升级到GPT-4o,输入价格从0.03美元/1000 tokens下降到0.005美元/1000 tokens,降幅高达83%;输出价格也从0.06美元/1000 tokens下降到0.015美元/1000 tokens,降幅为75%。

按照OpenAI的预期,其大模型将按照每年50-75%幅度继续降本。

把降本深埋在业务发展主线的,不只有OpenAI。今年以来,为了加速应用端的落地,国内大模型玩家不仅开始顺应降价的趋势,甚至降幅力度达到了惊人的程度。

例如智谱大模型在本月官宣其新的价格体系,入门级产品GLM-3 Turbo模型调用价格从5元/百万 tokens降至1元/百万 tokens,降幅高达80%。

再比如DeepSeek在5月6日发布的二代MoE大模型DeepSeek-V2,能力对标GPT-4、llama 3-70B,每百万 tokens的输入和输出分别是1元和2元,只有GPT-4 Turbo价格的近百分之一。

而字节在5月15日发布的豆包大模型,直接把AI使用成本从“以分为单位”,干到了“以厘为单位”的时代。

其中,主力模型豆包Pro 32k定价0.8厘/1000 tokens,比行业平均价格降低99.3%。在全行业降价的背景下,同样是1块钱,用户可以从GPT买到2400个 token,国产大模型可以得到8000多个 token。

如果用户用开源Llama模型自己搭建,大概能获得3万个 token。而1块钱,能在豆包大模型上足足获得125万个 token,相当于处理3本75万字的《三国演义》文字量。

在过去一年上演的“百模大战”,每隔一段时间总会有人对“如何加速模型落地”进行追问。 无可否认,AI大模型有无限大的价值,等着市场玩家去发掘,但眼下不过是行业非常初期的探索阶段。

AI作为一场成本驱动的生产力革命,大模型的价值在于通过创建图像和语言理解,让创造的边际成本无限趋近于零。在火山引擎总裁谭待看来,降价是价值创造的重要推动力:“大模型在 to B市场的应用场景还很少,包括OpenAI也在不断降价,大家的共同目标都是把市场蛋糕先做大。”只有降低客户试错成本,才能促进产业繁荣。

一位行业人士坦言,目前中国AI大模型应用的市场规模,与所有市场玩家投入的训练成本相比杯水车薪。企业还无法靠 to B 服务做到正循环,在收入方面的差距在两个量级以上。在这种情况下,大模型企业试图通过降价,让更多人用起来,“至少是条可以尝试的路子。”

低价而非价格战

中国企业历来奉行应用主义,多数企业之所以愿意拥抱AI时代,就是希望自身在市场竞争中借助AI打造差异化优势,从而提升行业竞争力。

然而,面对市场层出不穷的大模型,用户难以准确做出选型决策。再加上企业缺乏模型调优和专业数据处理的经验,导致模型的实际应用效果达不到预期,很难与自身业务相适配。

模型效果是AI落地最关键的一环。多位行业从业者表示,好的技术一定是在大规模应用,不断打磨的情况下形成的。这与字节在豆包大模型发布会上对外阐述的理念一致——用起来才是关键。 “只有在真实场景中落地,用的人越多,调用量越大,才能让模型越来越好。”谭待告诉虎嗅。

通常来说,价格是用户对于大模型的首要考虑因素。毕竟AI创新的风险系数非常高,很多企业即使想做各种创新,可受限于模型使用成本,并且担心模型难以胜任各垂类场景的任务,导致ROI为负,因此会更倾向尝试没有门槛负担的工具。

谭待粗略算了一笔账,企业要想用AI做一项创新,至少要消耗100亿 token, 如果按照大模型之前的售价,平均需要花费80万元,而现在使用豆包大模型,只需要8000元就能搞定。

过去,大模型推理成本下降,很大程度上依赖于算力的升级。而豆包之所以在价格上“碾压”其他同类大模型,依靠的是模型结构的优化、工程上从传统的单机推理变为分布式推理,以及把不同负载的推理进行混合调度等方式,从而带来超预期的降本效果,也成为打开AI应用的重要“开关”。

值得注意的是,包括BATJ等头部大厂,也都在把大模型的竞争焦点放在了模型训练效率提升,降低大模型的推理成本上。

当然,如果单纯拼价格,谁都能祭出价格更低的大模型。 但如果要真正打破大模型与行业之间的高墙,让美好的场景更广泛地发生,更低的成本是必要条件,但不能以牺牲模型的质量为前提。

例如市面上也有很多轻量化模型,虽然也做到了比较低的成本,但是以压缩了模型能力和推理成本为代价,在效果上大打折扣,不能与其主力模型相提并论。

尽管大模型降价的趋势已成必然,但字节的“行业最低价”也招致不小的热议。

一方认为,豆包大模型以行业最低价让企业用最低成本就能调用大模型,加速了应用落地;另一方则批评,字节的野心让其过早地触发了价格战,随着各家大模型使用成本逐步降低,接下来很可能会上演一场市场争夺战。

对于外界的质疑,谭待解释称,大模型现在还是初期阶段,远没有到激烈竞争的程度,模型的推理成本未来一定会继续下降, “或许,等到那时再回看今天的0.8厘钱,也许一点都不便宜。相比之下,我们只不过是提前那么一步而已,目的并非是为了驱赶对手。”

况且,低价不等同于“价格战”。to B 需要保持长期的盈利,谭待表示:“不亏损是保障业务稳定的关键,也是火山引擎的原则。”因为只有这样,才能长期可持续地提供服务。

从概念验证迈向落地开花

在去年AI大爆发引发的大模型训练热潮中,包括智谱AI、月之暗面、Minimax、零一万物最早都使用了火山引擎的算力训练模型。

谭待坦言,云市场其实比拼的就是规模。AI大模型的火热,为云厂商开辟了新的市场机遇。微软Azure就是最有力的证明。其通过投资绑定OpenAI让云业务一路高歌猛进,跃升为全球第一的智能云。

目前,豆包大模型已通过火山引擎正式对外提供服务。根据官方数据,豆包大模型单日Tokens的用量达1200亿,单日生成的图片数超过了3000万张。

去年,当大多数在去年上演“百模大战”时,字节的“缺席”曾一度被外界认为存在严重的滞后性。彼时的豆包大模型,还处于襁褓之中。谁曾想,隐忍多时的字节,会在这个节点出手。

除了模型的效果和成本,应用落地也非常关键。在过去一年里,豆包接入了包括抖音、头条、番茄小说等50多个业务,业务场景涵盖办公智能助手、电商导购、售后客服、营销创作、数据智能分析、编程助手等,并邀请了手机、汽车、金融、消费、互娱领域的行业头部客户内测。

在模型打磨的过程中,挑战一直都在。首先要让基础能力和性能达到对应的标准,然后对接企业客户需要解决很多问题,比如搭建大模型评估和应用流程,包括测试集合、案例分析和精调能力等,否则很难辨别哪些场景靠谱,哪些场景短期内不合适。

也是在和企业客户磨合的过程中,火山引擎团队加深了对助手类、知识类、娱乐类、教育类等场景的了解和适配程度,并且针对不同场景在火山方舟2.0平台植入了对应的插件和工具平台,不断实践摸索中找到最佳的解决方案。

大模型的能力目前很多维度上让人惊叹,但也有很多缺陷,同时又在快速演进,每隔三个月、半年都会发生很大变化。“这恰恰是做大模型产品的挑战和乐趣,需要在这种持续动态的技术发展中,不断去判断下一个产品的PMF(产品市场匹配点)可能是什么。”

值得一提的是,在字节的AI应用搭建平台“扣子”上,已经有些开发者通过自己开发的应用,实现了月入百万的目标。谭待预测在今年下半年,大模型在应用方面将会让更多场景,从概念验证阶段走向落地阶段。

眼下,火山引擎和招商银行、蒙牛、OPPO等企业用户,在核心业务场景都已展开了合作和探索,至于大模型将如何塑造未来,一切还要交给时间去验证。


「大模型+大算力」加持,通用人工智能和智能驾驶双向奔赴

开年以来 ChatGPT、GPT-4 的相继面世再度掀起计算机科学领域通用人工智能(AGI)研究热潮,也不断刷新我们对 AI 的认知。

作为具有人类水平表现的大型多模态模型,GPT-4 被视为迈向 AGI 的重要一步,标志着创新范式的深度变革和生产力的重新定义,也必将带来更多元的产品迁移。

截至目前,全球已经有超百万家初创公司声称使用这一秘密武器来创造新产品,而这些产品将彻底改变从法律到股票交易,从游戏到医疗诊断的近乎一切领域。

尽管其中很多是营销泡沫,但与所有技术突破一样,总会存在炒作周期和意想不到的远期效果。

事实上在另一边,进入 2023 年智能汽车领域同样十分热闹。

智能化已然成为上海车展全场关注的最大焦点,除了激光雷达等关键传感器的单点式突破,各大巨头也纷纷展示智能驾驶全产品矩阵,城市场景辅助驾驶量产落地加速推进。

更加值得注意的是,BEV、大模型、超算中心等计算机热词正在与自动驾驶、行泊一体、城市 NOA 等智驾焦点火速排列组合,颇有相互交融、双向奔赴的味道。

在这背后,一方面是近年来智驾、智舱持续升级对 AI 在汽车场景落地的数据、算法、算力不断提出更高要求,另一方面,AGI 的重大突破也已将触角伸向智能汽车,将其视为实现闭环应用的重要场景,很多企业布局已经相当高调。

日前,商汤科技 SenseTime 举办技术交流日活动,分享了以「大模型+大算力」推进 AGI 发展的战略布局,并公布该战略下的「日日新 SenseNova」大模型体系。

在「大模型+大算力」加持下,本次上海车展商汤绝影驾、舱、云一体产品体系已全栈亮相,近 30 款合作量产车型集中展出,商汤也再度分享了智能汽车时代的 AGI 落地新思考。

本次上海车展亮相的部分绝影合作车型展示

算法:AI 正式步入大模型时代

如商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚所言,「AGI 催生了新的研究范式,即基于一个强大的多模态基模型,通过强化学习和人类反馈不断解锁基模型新的能力,从而更高效地解决海量的开放式任务。」

通用大模型并非为自动驾驶而生,或为满足自动驾驶的特定任务需求而设计。但智能驾驶开发的诸多新需求已在推动算法从专用小模型向通用大模型快速演进。

首先是应对海量数据处理和 Corner Case 问题的迫切需求。

对于感知系统低频出现但至关重要的小目标及带来的潜在安全隐患,算法开发需要面对海量数据,传统的 AI 小模型将难以同时处理大数据量和高复杂度的任务。通用大模型则可用在长尾目标的初筛过程,并叠加语料文字处理得到很好的效果。

再比如智驾算法开发对自动化数据标注、降低人工成本的诉求。相比于人工标注,通用大模型将自动化对海量数据完成标注任务,大幅降低标注数据获取的时间成本和本身的金钱成本,从而缩短研发周期、提升成本效益。

处于类似的考量,近年来国内外巨头企业已围绕大模型纷纷展开各自智驾布局。

继 Google 于 2017 年提出将 Transformer 结构应用在 CV 领域图像分类,大模型已在 GPT-2、GPT-3、BERT 等当中不断证明实力,特斯拉率先站台 Transformer 大模型征战图像视觉。

国内企业也紧随其后:

毫末智行已宣布自动驾驶认知大模型正式升级为 DriveGPT,网络表示利用大模型来提升自动驾驶感知能力并将大模型运用到数据挖掘,华为也已宣布加入大模型争霸赛,自研「盘古」即将对外上线。

作为行业领先的人工智能公司,商汤在大模型领域可谓乘风破浪,过去一两年则全面将大模型能力在各业务线 20 多个场景落地,包括智能驾驶。

商汤「日日新 SenseNova」大模型体系背后是大模型研发中深厚的积累。商汤有自己的全栈大模型研发体系,其中就包括针对大模型的底层训练及实施过程中的各种系统性优化。

例如,商汤近期向社区发布的用于真实感知、重建和生成的多模态的数据集 OmniObject3D 中包含 190 类 6000 个物体,数据质量非常高。

再比如,商汤在 2019 年就已首次发布 10 亿参数的视觉大模型,到 2022 年参数规模已达到 320 亿,这也是世界上迄今为止最大的视觉模型。

此外,商汤也在智驾领域持续展示大模型能力。2021 年开发的 BEV 感知算法在 Waymo 挑战赛以绝对优势取得冠军,2021 年 BEV Former 的 Transformer 结构至今仍是行业最有影响力的 BEV 工作,今年开发的 UniAD 是业内首个感知决策一体化的端到端自动驾驶解决方案。

在技术实力的另一端是量产进度。商汤也给出了自己的智能驾驶量产公式:

自动驾驶技术能力=场景数据 x 数据获取效率 x 数据利用效率² =场景数据 x 数据获取效率 x 先进算法 x 先进算力。

而先进的算法大模型不仅将通过跨行业数据汇聚提升驾驶场景数据资源,通过数据闭环开发模式和自动数据标注提升数据获取效率,更将大幅提升感知精度和感知丰富度进而成倍提升数据利用效率。

依托原创 AI 算法和模型积累,商汤领先的 BEV 感知算法推进国内首批量产应用,并采用 Domain Adaption 算法有效解决跨域泛化问题。商汤首创的自动驾驶 GOP 感知体系将目标数据获取的人力成本降低 94%,实现低成本的车端模型开发,目前也已投入量产应用。

算力:智能汽车时代的重要基础设施

随电子电气架构技术由分布式不断向集中式演进,大算力芯片成为新型电子电气架构实现的物理基础。

近年来车端芯片算力发展突飞猛进,如英伟达规划中的 Atlan 单颗芯片算力超 1000TOPS,THOR 单颗算力超 2000TOPS,将大幅提升单车感知决策能力。

而在云端,AGI 在自动驾驶、网联等场景的泛化应用将提出比车端指数级更高的算力要求——从数据标注到模型训练,从场景仿真到算法迭代。

算力将是智能汽车时代的新型基础设施。

在此背景下,近年来主流企业纷纷开启双线并行探索,车端自研算力平台,云端建立超算中心。而进入大模型时代后,数据量随着多模态的引入也将大规模增长,因此必然也会导致 AGI 对算力需求的剧增。

可以看到,英伟达车端云端同步布局并将提供端到端的全栈式 AI 加速计算解决方案,特斯拉也早在 2021 年 8 月发布自研云端超算中心 Dojo。

据近期报道,埃隆·马斯克也将成立一家人工智能公司来与 OpenAI 竞争,已购买数千个英伟达 GPU 并一直招募 AI 研究人员和工程师。

国内方面,吉利、蔚来、特斯拉、毫末智行、小鹏等企业也已跟进布局云端算力集群,投入巨大以提升智驾开发算力储备。

对于商汤来说,如果说大模型将是支撑智能驾驶的上层建筑,那么大算力就是数字基座。

商汤科技董事长兼 CEO 徐立表示,目前大模型对基础算力、基础设施的需求非常旺盛,基础算力对并行效率的要求也非常高,但真正好用的基础设施其实十分稀缺。

出于这一原因,商汤历时五年自建了业界领先的 AI 大装置 SenseCore,完成 2.7 万块 GPU 的部署并实现 5.0 exa FLOPS 的算力输出能力,是亚洲目前最大的智能计算平台之一,可同步支持 20 个千亿规模参数量的超大模型同时训练。

位于上海临港的 AIDC 人工智能计算中心将为智能汽车的数据存储、标注、脱敏、仿真训练、算法迭代到部署的闭环提供算力支持,打通基于数据驱动的算法生产全流程,加速高级别智能驾驶技术的 AI 模型生产和持续迭代,推动实现规模化量产。

在 AIDC 的基础上,AI 大装置也将提供支持大模型生产的一系列服务:

如此规模的算力设施即使特斯拉同期也尚难以望其项背,也必将推动大模型的高效闭环。

「大模型+大算力」推动智能汽车行业整体进程

汽车行业正在面临百年未有之大变革。尽管此次以「大模型+大算力」推进 AGI 发展是商汤提出的战略布局,但事实上,这一理念早已在行业层面达成共识。

基于感知、决策规控和 AI 云三大核心能力,商汤「大模型+大算力」已赋能绝影驾、舱、云三位一体产品体系量产落地:

除智能驾驶领域的全栈能力和行泊一体量产解决方案外,「大模型+大算力」也正在助力商汤打造智能座舱跨场景生态。

车展期间,与商汤「日日新 SenseNova」大模型体系深度融合的绝影未来展示舱升级亮相,语言大模型「商汤商量 SenseChat」以及 AIGC 文生图平台「商汤秒画 SenseMirage」也已上车,多点融合重构人车交互方式,打造第三空间。

以「商量」为例,作为千亿级参数的自然语言处理模型,其使用大量数据训练并充分考虑中文语境,展示出出色的多轮对话和超长文本的理解能力。

商汤也展示了语言大模型支持的诸多汽车场景创新应用,如在行车过程中化身「邮件助手」自动提炼关键信息,作为「会议助理」自动生成会议纪要,大大节省用户行车时处理工作的时间和精力,为未来出行的应用场景拓展带来丰富的想象空间。

此外,以人工智能大模型开发、生产、应用为核心,一站式

GTC2024:理想汽车怎么玩儿转大模型

在英伟达GTC2024的AI 驱动汽车科技创新发展的会议上,理想汽车智能空间算法首席科学家陈伟介绍了理想智能座舱领域人机交互方面的进展。

陈伟介绍了理想智能座舱人机交互的技术理念,基于大模型Mind GPT的新型的空间交互技术和产品,Mind GPT背后的AI工程架构是如何实现的。

以下是陈伟演讲内容整理,在不影响原意的基础上略有整理和删减。

注:关注“智车引擎”公众号,并回复数字“4”,将获得本场讲演的PDF。

人机交互的技术理念

人机交互的界面,我们认为正在从二维的平面走向物理世界下面三维的空间。在这样的三维空间下,人与机器之间的交互方式,正在从人适应机器转变为机器来主动适应人,那么只有这样才能让人与机器之间的交互更加自然。

而在我们整个的空间加交互的架构下面,融合了语音、视觉、触控等多模态的感知信息,致力于为用户提供可以媲美人与人交互的自然的交互体验。那么承载整个三维空间交互的AI助手就是理想同学,我们期待理想同学能够成为每一个车主家庭的数字成员,让车内每个人都能够轻松的使用AI。

在李想同学背后涵盖了从感知智能到认知智能的多项AI的技术,覆盖了感知、理解、表达三大的能力。其中借助全车麦克风以及摄像头的强大的传感器,理想同学具备了听、看和触摸的多模态感知能力。

而在端和云强大算力的加持下,理想同学能够充分的理解语言、理解用户、理解世界,并给出自然而且有价值的回答。最后借助智能空间的全景声以及多屏显示的能力,理想同学的回复信息得到了充分的表达,为用户提供了沉浸式的交互体验,不断加强人与车的情感连接。目前,以感知和表达的代表的感知智能已经走向了成熟,但是理解代表的认知智能能在发展中,直到22年年底的时候,大模型的出现带来了一次认知技术上面的变革。

众所周知,人工智能的三要素是数据算法和算力。

伴随着互联网、移动互联网、车联网的兴起,整个网络积累的海量的数据可以用于AI大批量的学习。截止到2023年的时候,全球已经有55亿的移动用户,同时在过去10余年中,以英伟达的GPU为代表的人工智能处理的能力在惊人的增长,令人震撼的是过去10年的算力已经增长了1000倍,这种进步并不来自于摩尔定律的预测,而是来自于全新的结构性的变化。

同时 AI算法伴随着深度学习的兴起,迎来了新一轮的技术浪潮。2016年AlphaGo战胜人类是人工智能发展历史上的里程碑的事件,之后2017年transformer的提出奠定了如今基础的神经网络架构。

随后 open AI陆续推出了GPT1一直到GPT3,那么模型的规模在急速的扩大,一直到2022年11月基于大模型GPT3.5的Chat GPT震惊了全世界。大模型的兴起变革了AI模型的训练范式,带来了新一轮的认知革命,也迎来了通往通用人工智能的曙光。那么整个AI在经历了计算智能、感知智能的突破以后,迎来了认知智能技术上的爆发,经历了2023年大模型技术井喷式的发展之后,行业现在也逐步开始共识,基于大语言模型,Agent的技术将是走向AGI的关键路径之一。

那么大语言模型对于理想这边智能空间的空间交互也非常的关键,李想同学的智能化水平的提升也急需借助于大语言模型和Agent的技术来实现整个产品体验上新的突破。

为此,我们在2023年6月份发布了我们的多模态认知大模型——MindGPT。结合我们多模态感知技术和大语言模型MindGPT,我们全面升级了空间交互的能力,基于多模态感知能力,我们可以充分的感知整个智能空间的各种模态的信息,并且把它转化为了人类的语言。

我们基于自研的Taskfomer结构设计了面向Agent的大模型MindGPT。那么基于MindGPT就可以更好的对人类语言进行理解进行反馈,更好的完成人与机器之间的交互。

那么接下来我就分别和大家介绍一下在空间交互这个体系下面的两个核心技术,一个是多模态感知,一个是MindGPT。

在多模态感知方向上,感知技术现在已经逐渐在从小模型+流水线级联的方式,升级为了端到端的大模型。我们在内部我们这样的端到端的感知类的大模型称之为MindGPT—MP是multi model perception的简称。

那么为了打造面向智能空间的空间动态感知的技术,我们在信号、语音、视觉这样感知领域都实现了技术的创新和突破。那么这里面也列出了我们在过去的一年间发表的一些论文,大家也可以参考。

MindGPT—MP使用了海量的视听数据,进行了自监督学习和多任务的精调,借助整个全车麦克风以及前后排的摄像头,理想同学能够同步感知多路音频和视觉的信号,经过信号的分离、增强、编码、融合等前处理的技术以后,可以让车内的用户定位和人声分离都更加的精准。理想同学就能像人一样边看边听边听边看,同时能够实现更强的多语种、多多语言、多方言、多任务的感知能力。

理想同学在交谈的过程中能够快速准确的知道谁在说、在说什么内容,情绪怎么样,发生了哪些有趣的事儿?

我希望和大家介绍一下我们在多模态交互上面的一些能力,我们也陆续发布了多个创新的多模态感知能力。

第一个是多模态的指代,我们希望在车里面能够产生开窗、开灯,打开屏幕、控制座椅这样的一些小需求的时候,不用让用户说非常冗长的话,也不用担心用户一直想不起来这个东西叫什么,而出现了交互上的坎坷,我们可以用更加简单省力的指代的方式,用一个手指来指代,比如说这个那个来完成。

目前指代的方向其实覆盖了全车的各个方向,同时理想同学也能看得懂指代更多的人和物品,那么接入更多的空车和体验上的交互,比如说可以说把那个屏打开,那么理想同学就会自己学习,因为你是要打那个方向上的屏幕,他会更加熟悉车里的每一个地方,更好的熟悉每个家人的需求。

那么第二个多模态的可辨析的说,理想同学可也能够读懂电影海报内容,可以随意表达。孩子即便不认识字,也可以根据海报内容描述自己想要的内容,那么最后快速的实现对于和车之间的交互。

最后其实就是我们的方言自由说,在这种方言自由说的能力下面,我们现在可以用一个模型就能实现这种9种这种多方言的自由感知。

MindGPT能做什么?

以MindGPT为核心,我们逐渐构建了感知、规划、记忆、工具、行动的完整的Agent的能力,其中MindGPT基座模型使用了自研的Taskformer的结构,那么我们在整个MindGPT的训练中进行了充分的自监督学习,然后在整个学习世界知识的同时,我们也重点在车载场景的15个重点领域进行了知识的加强。在这个基础上,其实基于我们整个在车载场景里面重要的三个大的场景和领域,用车出行和娱乐。

我们使用了sft和rlhf这样一系列的训练以后,能够覆盖在这三大场景里面的大概110多个领域,大概有1000多种的专属的能力,能够让MindGPT具备了理解生成、知识记忆和推理这三大的能力。

MindGPT作为整个大模型的控制器,它可以连接外部的Model Zoo和APIZoo,那么通过大模型对于用户输入的理解和思考,有条理的进行任务的规划,独立的完成自己擅长的部分,同时能够调度外部的API和专用模型,解决自己不擅长的部分,持续能够拓宽大模型能力的覆盖。比如说其实我们也使用了RAG的技术,能够通过大模型去连接搜索的能力,然后通过搜索增强就能够时刻获取更新更准确的信息了。

同时 MindGPT也建设了记忆网络。因为李想同学是希望能够面向全家人服务全家人的,那么所以理想同学应该理解和明白会懂每一位家人。那么因此记忆非常重要,我们可以让两个同学能够基于和之前不同的人之间的历史的对话,能够记住用户的偏好和习惯,同时理解每一个用户目前的状态,从而让理想同学和人之间的交互更加个性化,也更加理解用户。

那么最后MindGPT的在线强化学习能力,能够基于用户的反馈和纠偏,不断能够迭代自身的能力,让理想同学越用越好用。

2023年12月份的时候,我们的MindGPT也参加了行业权威的中文大模型评测,C-Ezal和CMMLU,并且在这两个榜单上取得了双榜第一的成绩。而也就在2023年的12月份,我们通过理想的OTA5.0向用户推送了全新的MindGPT。

MindGPTMind上线以后的理想同学在用车、娱乐和出行等多个场景里面,都展现了非常强的人机交互能力。

大模型的工程化

在大模型工程侧,我们主要分为两部分,一部分是大模型的训练,另外一部分是大模型的推理。

大模型的训练平台liPTM LLM pretrain Model的平台实现大模型的密集训练,基于大模型推理引擎LisaRT-LLM模型,它的推理服务实现了大模型的落地应用,这两部分的工作都基于英伟达GPU来完成的。

那么接下来其实就会重点介绍一下里PTM和LisaRT-LLM我们这两部分的工作。

首先想介绍一下我们整个的推理的服务,那么也就是MindGPT的云服务的这种架构,我们针对整个大模型的特点,设计了整个端云融合的MindGPT的推理服务体系,那么在整个架构图里面字底向上其实包括了针对业务场景优化的类似LisaRT-LLM的大模型的推理引擎。

第二就是和LisaRT-LLM结合的大模型的调度和推进的平台。那么这个平台其实整个在服务上面的设计,就是希望它能够做到推理服务的编排、请求的调度、模型部署这样的一些能力,能够结合模型的类型业务的场景,包括Continuous Batching的这样的一些因素能够实时将生成的这种请求调度是最新的一些推理的后端,实现最优的性能和吞吐。

第三部分,其实是Taskformer中控服务,那么这个服务其实就实现了整个大目前用户所必需的一些数据库的集成检索,增强规划和记忆的能力。那么再往上其实就是我们的SCI SDK,那么有了这样的SDK以后,就更好的去服务我们的应用的集成,在这个 SDK里面其实它有本地端的AI能力业务,我们直接云端的能力,那么它实现了端云一体化的模型能力的输出。

为了支撑整个百亿千亿级的MindGPT大模型的高效迭代,你看我们也自研了TB级吞吐的大数据的数据系统LiARK。

那么基于LiARK,就会支撑我们的这种千亿级参数这个大规模的训练系统LiPTM。为了加速整个大模型数据集的高效生产,我们其实组合了像CPU GPU的能力,然后构建了高性能的分布式的数据的任务的集群,来处理这种海量的原始数据。因为对于训练来说,其实除了整个算力之外,其实数据本身以及数据的传输也是非常重要的。

那第二件事其实就是为了加速整个千亿级大模型的高效训练,我们在使用了这种比较领先的模型结构和高性能的训练算子以及高效的训练策略的同时,其实也实现了4D的并行训练的模式,这4D就包括了像数据并行、 TCL并行、流水线并行和序列并行这样的一些训练模式,那么有了这些模式以后才能有机会及我们的算力的设备及我们的GPU去完成更大规模的大模型的训练。

千亿级的这种大模型的这种训练里,PTM它其实在整个训练速度和效率上,其实目前我们达到了还算不错的效果。目前在基座的这个训练阶段,训练速度我们用像TOKEN/秒或者是sample/秒来评估的话,那么在适配的相同的模型架构以后,在相同的训练集下,训练过程中的速度就像图中所示,那么是HF的transformer的5.12倍,高于DeepSpeed的transformer的1.6倍和ColossalAI的相对于HF的3.25倍,就是相对来说我们对于HF transformer的这个效果的相对的提升来说,也是最高的。

在SFT阶段整个训练速度,在适配的相同模型结构以后,在相同训练集下面,整个训练的过程也如图所示,它是这个目前行业里面就是最好开源能力的3倍以上;在强化学习RHF训练速度上面是DeepSpeed大概3.1倍左右;从吞吐力上,在适配的相同模型结构以后,在相同训练集下面TFlOPS相比DeepSpeed也要快一些。这是在整个训练的过程中,其实整个对标的情况。

当然就这块我觉得不管是目前开源的社区,还是各个公司大家自己预训练的平台上,整个进步都是非常快的。我们这块其实整个的这种迭代速度也在持续的根据我们的模型结构做更深入的进行训练的这种优化和定制。

我们其实也在做这个大模型落地应用的推理的工作,那么最核心的其实就是这个自研了LisaRT-LLM大模型的推理引擎,这一块的话其实就可以完成像百亿千亿级的参数量大模型的落地。

首先就是对于GPT这种结构的模型,我们其实跟进了一些这个行业先进的一些推理加速的方案,比如说像FusedMHA或FlashAttention这样的方案,把核心算子优先加速起来,同时就是为了提升整个吞吐力的话,我们其实使用了Continuous Batching这样的方式去提升整个服务的并发量,然后最后再通过像tppp这种结合的方式,实现整个单卡或多卡的这种模型的并行,然后来应对这种千亿级参数量的这种大模型最终的落地。

我们也结合了我们MindGPT的业务场景和英伟达在英伟达这个 SRT-LLM的这个团队,我们做了非常深入的合作,进一步来提升了这个性能,然后降低推理成本。

我们主要做的工作就包括了三部分。

第一个就是说我们就是设定了比较明确的优化目标,就是能够在产品性能要求的情况下,一般来说我们就是整个Prefill延迟大概控制在了500 500毫秒以内,然后然后我们解码的速度控制在了20~30token/秒左右,然后尽量的去把我们的服务吞吐量去撑上。

第二件事其实就是我们也在围绕MindGPT的业务场景做了定制的优化,比如说现在缓存通用的一些泡沫的结果,做一些像Prefuse的一些catch什么的,然后根据这个生成的文本长度和性能要求,针对不同的垂域去选择对应的调度优化的策略。

第三个其实就跟英伟达SRT-LLM团队的这种合作,在一些核心算子,我们可以用TRT-LLm的这个能力直接来实现,那么这块其实对我们的助力也非常大。

通过这个上述的LisaRT-LLM的优化方案以后,其实我们在2023年Q4完成MindGPT推理服务的成功的落地。这块也是伴随着整个OTA在李想同学中这个MindGPT的上线来一起完成的。这块当时我们也在跟业界的优秀的开源的LLM的推理引擎做了性能的对比,那么测试的方法其实就是使用了线上的真实数据,然后固定QPS来做压测,然后在Prefill在500毫秒以内,然后解码速度在20Token/秒以上,这样的性能要求下,大概去测试一下整个推理服务最大的吞吐量。

那么图上的这个推理框架大的分别就是TGI的V1.1.0、vLLM的2.0和LisaRT-LLM10月份的版本。

那么这三个比完了以后,其实整个可以看到基于目前就是理想同学的场景,就我们实际车载的场景来看的话,其实测试结果在a800上面,LisaRT-LLM的这个吞吐率相比vLLM大概有1.3倍以上的提升。

这张图就可以看到就是这三个推理框架Prefill的延迟,随着QPS的压力增大以后的变化曲线,我们可以看到Prefill Latency这个纵坐标,当小于500毫秒的时候能达到的最大QPS,因为超过500毫秒,用户能够明显感受到就会响应非常的慢,就很难达到我们产品上的需求了。

因此就是从这个曲线可以看到,就在这种场景下,这个LisaRT-LLM也具备具备了相对较高的并发的负载的能力。

科大讯飞按下加速键:大模型上车体验已超越传统汽车认知

“时代变了”。

想象一下,当你坐在车里,随口说一首想听的歌,汽车马上就会为你播放;你说开一下窗,并使了一个眼神,汽车马上打开了你眼神瞟过去的车窗;当你遇到不喜欢的歌曲,随意摆了下手,汽车马上就为你切换下一曲。

在车内打电话没办法记备忘,汽车主动帮你整理电话要点;想找个人聊天,车里的虚拟人可以陪你用不同语言交流;忽然想查些实时资料,汽车帮你查询后还主动为你念了出来;车内不同座位的人不用耳机就可以听到不同的音效;主驾说了一句调低空调,其它座位的人仅仅说了一句“我也要”,汽车就会把相应位置的空调温度调低。

“释放想象力”似乎从未如现在一样贴近生活。当年,我们从电视中看到《霹雳游侠》里KITT的种种酷炫功能,总以为这是科幻片里才能出现的场景,然而科大讯飞通过实车展示告诉我们,这些不是想象,而是现实。

10月24日,在科大讯飞全球1024开发者节上,科大讯飞智能汽车分论坛发布了“智能驾驶”、“智能音效”“智能座舱”三大智能产品,汽车大模型从抽象概念走进了现实。而在发布会之前,工作人员将改装调试好的工程车提前放置在了会场,以供大家体验。科大讯飞明白,在真实的体验面前,再多的语言讲解都是苍白的。

一场不同寻常的发布会

一般来说,除了某些特别严肃的场合,很少能看到一场发布会的主持人是由领导亲自担当的。科大讯飞副总裁、汽车事业部总经理刘俊峰开玩笑说,“因为预算都花在了产品的研发上,因此和团队商量了一下,我就客串今天的主持人了”。

其实,整场发布会,大多是科大讯飞的员工在亲力亲为。发布会后,有工作人员透露,发布会上的很多直播连线环节大家心理压力都非常大,中途一直担心会出问题,直到连线结束才敢长舒一口气。

事实上,同样是科技产品发布会,“花活儿”越多越容易出错,技术含量越高越倾向于延时直播、伪直播或者录播。而科大讯飞1024的这场智能汽车发布会,显然是大胆的在“秀肌肉”,不但要直播,而且要大家亲自体验。

总结科大讯飞的智能汽车发布会,核心点无非就是大模型上车。发布会上一口气发布的“智能驾驶”、“智能音效”、“智能座舱”三个产品中,或多或少都与大模型和AI产生了联系,其中搭载了星火大模型的智能座舱显然是最值得关注的产品。

①智能座舱

“智能座舱”方面,搭载了星火大模型的星火智能座舱,是三个产品中呼声最高,也是最令人期待的产品。就如本文开头所提到的,搭载了大模型的智能座舱,已经可以视为一个可以主动理解乘客意图的贴身管家。它可以读懂用户的眼神、理解用户的语义,能够识别强意图和弱意图,做到有求必应,无求时不“乱插嘴”。

最新发布的讯飞星火V3.0赋能智能座舱全面升级。在发布会现场,科大讯飞汽车事业部副总经理和卫民宣布,目前,星火大模型所具备的核心能力都已经正式接入汽车。星火智能座舱已经可以支持实时检索,实现插件化调度,并集成了多模态生成的能力。

面向多样化的汽车使用场景,科大讯飞推出了星火座舱OS、星火汽车APP和星火座舱域控。

星火座舱OS包括星火汽车助理和星火场景应用两大部分,将语音与视觉模态深度融合,让识别更精准,语音合成MOS>4.6,大模型业务贯穿支持十轮以上的上下文语义继承,新增的实时检索能力打破大模型认知边界,时新信息即时查询。

发布会现场,工作人员仍然用现场实时连线的方式对新功能进行了展示。在展示中,我们看到,搭载了大模型的智能座舱,人机对话相当自由,一次性可以接受多个语音指令,上下文语义理解能力十分优秀。例如:当乘客说“关闭左侧车窗、调低空调、查询今天天气”,汽车可以一次性将这三个指令同时完成。

星火汽车APP围绕用车场景打造了多样化大模型车端应用,如用车顾问、儿童故事、口语陪练、心灵SPA、旅行伙伴等等。星火座舱域控则拥有丰富成熟的接口能力,面向行业输出兼容核心AI算法的“核心板”,基于全栈的座舱AI算法和结合芯片的异构算法优势实现芯算融合,SOC算力消耗降低10%,并与国内厂商深度合作,大幅度提升国产平台的渲染效果。

和卫民总结星火智能座舱的能力,用了三个方面、四个词。三个方面包括“星火汽车模型绝不仅仅是对交互对话的提升,助理要升级、交互也要升级”、“对蓝牙电话等传统场景赋予新的价值点”、“星火大模型本身会产生新的场景”;四个词包括“极速”、“交互更自然”、“说法更自由”、“用户体验更智能”。

②智能驾驶

“智能驾驶”方面,科大讯飞下场并不算太早,为了证明自己,发布会上特意进行了一场远端的连线直播。

在合肥市金寨路高架路口,搭载科大讯飞智驾技术的车实时待命。开始连线后,工作人员边开边讲解,上下匝道、超车避让、遇到别车时应急处理,智能驾驶功能在若干突发状况下,一气呵成,完美跑完了试验路段。其中一个小插曲是,为了证明自己真的是在直播,车内负责讲解的女孩还专门强调了一下此刻(发布会进行连线的时刻)的时间。

实际上,科大讯飞的智驾技术发展得比较快,尤其是在视觉感知技术积累层面有比较好的基础,近3年已经获得了17个评测冠军。目前,科大讯飞基于BEV+Transformer网络,已经实现了多模态、多任务、长时序的4D精准感知,构建了云端+车端的感知形式。

基于讯飞星火认知大模型,科大讯飞带来了两款高性价比的行泊一体智驾解决方案——智驾STD和智驾PRO,配备增强型高速NOA(HNOA)、记忆行车和记忆泊车等功能。星火大模型将从技术架构层面赋能BEV+transformer智驾感知大模型的研发,解决智能驾驶当前存在的感知不精准、决策不智能、长尾不收敛三大技术难题。

用通俗的话来讲,大模型加高阶自动驾驶,已经真正让自动驾驶变得更智能、更个性化,可以处理更多复杂的突发情况。科大讯飞汽车事业部副总经理李卫兵博士曾举了这样的一个例子:你对汽车说,我想停车后取出后备箱里面的行李。这时,汽车会正确理解你的意图,不但会自己泊车,而且还会挑选靠前的位置,方便车主取出行李。

③智能音效

“智能音效”方面,科大讯飞提出了5级汽车音效的划分体系。而在本次发布会上,科大讯飞发布了支持24声道、30个以上扬声器,具有更强大AI算法加持的新一代音频管理系统。科大讯飞汽车事业部副总经理、苏州研究院常务副院长支洪平表示,在这个音频管理系统中,科大讯飞可以提供全自研的核心算法、全自研的硬件平台iFlySound Plus24ch功放平台以及全链路的工程化服务。

在发布会现场,支洪平说,本次发布,除了既有的“AI主动降噪”、“虚拟现场音效”、“语音分区交互”、“3D矢量空间音频”、“高拟真声浪合成”、“AI自适应”之外,还新增了“车内交流补偿”、“低品质音源修复”、“场景增益控制”“声场分区”、“车载K歌”和“大模型音效”等。

其中,“车内交流补偿”可以让乘客在高速上汽车高风噪情况下依然低声细语进行交流;“声场分区”可以让主驾和后排乘客有隐私隔离,通过局部主动噪声控制,可以让不同座位上的人听歌、看电影、打电话互不干扰;“车载K歌”和“大模型音效”可以让乘客更主动的根据个人爱好调整汽车音响的音效,将需要特定专业人士进行的工作,实现简单化和个性化。

硬件层面,iFlySound Plus24ch功放硬件平台使用高性能浮点DPS,拥有最高2GHZ*2的高速音频处理加速器和128通道数字音频处理能力,可以获得高达24bit 96kHz的HD Audio支持,并且兼容未来E-E架构,拥有超强的硬件扩展能力和音频推动能力,性能超越当前市面上大部分主流硬件设施。同时,科大讯飞还在保证性能的前提下降低了硬件的尺寸和重量。

本次,科大讯飞在硬件上进行了平台化的设计,包括通讯、计算、功放模块都可以进行芯片的选贴。对应车企的不同定位,科大讯飞提供了12扬到36扬、涵盖了A级车到D级车的全范围。

“技术派”科大讯飞

实际上,科大讯飞一直都是坚定的技术拥趸。自1999年成立以来,科大讯飞一直从事智能语音、自然语言理解、计算机视觉等核心技术的研究。尤其是在语音识别方面,科大讯飞一直是这一领域的优秀领跑者。

2001年,科大讯飞“半汤会议”正式确定了专注语音产业的发展方向,此后二十余年,其分别在语音识别、语义理解、语音合成等方面取得重大成就。

2006年,科大讯飞首次参加国际语音合成大赛,并斩获第一名,此后获得十四连冠。2008年,科大讯飞成功上市,成为当时中国语音产业界唯一上市企业。2010年,科大讯飞发布了“语音云平台”,这是全世界第一次宣告手机的语音听写时代到来。2015年,某品牌汽车做车载噪音环境下语音识别测试,科大讯飞的语音识别系统,准确率达到86.9%,一年后,这一数字提升至90%。2016年,在Google举行的国际英文语音识别大赛上,科大讯飞的语音识别准确率在全球率先突破97%。

科大讯飞多次在语音识别、语音合成、机器翻译、图文识别、图像理解、阅读理解、机器推理等各项国际评测中取得佳绩。其曾两次荣获“国家科技进步奖”及中国信息产业自主创新荣誉“信息产业重大技术发明奖”,被任命为中文语音交互技术标准工作组组长单位,牵头制定中文语音技术标准。2021年,科大讯飞“语音识别方法及系统”发明专利荣获第二十二届中国专利金奖,这也是国内知识产权领域的最高奖项。

进入到AI时代,科大讯飞一直保持着前沿领域的探索。2014年,科大讯飞正式启动“讯飞超脑计划”,研发基于类人神经网络的认知智能系统。2020年,基于在认知智能领域的前瞻攻关,以及将技术规模化落地应用取得的显著应用成效,科大讯飞认知智能国家重点实验室团队获得中国青年的最高勋章——“中国青年五四奖章”。2021年4月,科大讯飞获中国智能科技最高奖——吴文俊人工智能科技进步奖一等奖。

2022年底,chatgpt的爆火将生成式预训练Transformer模型推至前台。至此,在中国开始上演了百模大战。2023年5月,科大讯飞正式下场,发布了“讯飞星火认知大模型”,由此揭开了轰轰烈烈的新一波智能化浪潮。

其实,大模型和AI化浪潮中隐藏着很多浑水摸鱼的“伪技术”。比如,此前大热的“超精细化虚拟人”就是AI虚拟人技术中的“伪装者”。再比如,很多公司将此前的AI研究成果整合在所谓“大模型”系统中,诞生出了换汤不换药的“缝合怪”。相比而言,科大讯飞将优势的语义理解、智能感知技术和大模型的处理能力无缝结合,可以说是国内产业界的一股清流。

当然,我们也注意到,目前国内大模型更倾向于垂直领域发展,通用能力不足。这中间有数据量的问题,也有成本考虑的问题,还有硬件水平的问题。科大讯飞董事长刘庆峰坦言,目前的星火大模型V3.0还不如GPT-4。科大讯飞已经联合华为打造基于升腾生态的自主可控大模型算力底座“飞星一号”平台,在此基础上,2024年上半年,讯飞星火大模型将启动对标GPT-4的更大规模训练。

回到智能汽车领域,科大讯飞从2003年开始进入该领域,至今已有20年时间。截至2023 年9月底, 科大讯飞的汽车智能化产品和技术已累计实现5000万的前装搭载,上半年在线交互次数突破26.13亿次,同比增涨88%,平均每月活跃用户近1900万。

“硬核”智能化是未来

大模型上车是必然会发生的事情,因为这一需求在科技水平未能达成时就已经被明确提出。

实际上,科幻作品往往代表着人们对于高科技成果落地的追求,而这些追求最终随着时间的流逝,慢慢也都演化成了现实。比如《从地球到月球》中,载人飞天的空心炮弹;比如《海底两万里》中,神秘的纯电潜艇。

再看《霹雳游侠》等作品,汽车的自由交流、自动化驾驶、实时资讯查询等事项都已经成为了现实。甚至,一些先进的概念车也已经实现了车身图案和颜色的实时变化,飞行汽车的概念已经频繁出现在众多厂商的PPT中,我们似乎生活在一个科技爆炸的时代。

回归到现实,在产业链中,供应商往往是最先做出技术突破的“实干派”,其能力的边界是大多数产品的技术基底。前不久,博世中国宣布重大变动,汽车业务重组更名为智能交通事业部。作为全球最大的汽车技术供应商,博世对于技术潮流的嗅觉非常敏锐,其重大组织调整具有指向性意义。

数据层面也证实了博世预判的准确性。2023年9月,新能源车国内零售渗透率上升至36.9%,新能源化趋势明显。而Canalys报告指出,2023年第一季度,中国市场广义新能源乘用车前装标配智能座舱的市场渗透率已经高达82.7%。

数据显示,在新能源车类别中,新势力品牌智能座舱渗透率达100%,自主品牌智能座舱渗透率为93.6%,一些豪华品牌也都在积极投资智能座舱。由此可见,汽车座舱的智能化已经成为势不可挡的趋势。

以星火认知大模型为代表,汽车垂直大模型正在改变既往预设问答式智能座舱的体验。更自由、更智能、多模态的交互体验使得汽车可以实现从智驾到座舱的全面智能化。无论是TO C的自动驾驶、智能座舱,还是TO B的数据分析与AI训练,大模型带来的便利都前所未有。

大模型上车,给用户带来的是1+1>2的感受,可以更好地解放路上时间。就像科大讯飞智能汽车发布会的口号一样,“释放想象力,智能新出行”。

未来,值得期待。

  • 声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
  • 本文地址:https://srwj168.com.cn/keji312/8586.html
老公让我辞了5万的工作 照顾怀孕的婆婆和小姑子 我直接离婚走
夺大师赛第6冠 生涯第22冠 罗马大师赛 兹维列夫横扫智利一