马斯克4个月建成10万张H100超算集群!xAI算力超越OpenAI 全球最大 奥特曼怕了

新智元报道

编辑:编辑部

【新智元导读】 两天前,马斯克得意自曝:团队仅用122天,就建成了10万张H100的Colossus集群,未来还会扩展到15万张H100和5万张H200。此消息一出,奥特曼都被吓到了:xAI的算力已经超过OpenAI了,还给员工承诺了价值2亿期权,这是要上天?

马斯克的xAI一路狂飙突进,把Sam Altman都整怕了!

就在9月3日,马斯克在推上得意自曝:

团队仅仅用了122天时间,就建成了有10万张H100的Colossus集群,是世界上最强大的AI训练系统。

而且,未来几个月规模还要翻一倍,扩展到15万张H100+5万张H200。

最后,马斯克感谢了英伟达和许多其他合作伙伴、供应商。据悉,是戴尔开发、组装了Colossus系统。

马斯克的xAI,已经让几大AI巨头感受到了强烈的威胁。

根据内幕消息,Sam Altman就曾表示,自己是怕了马斯克了!

如今的xAI,不光算力有超越OpenAI之势,还对员工十分大方。有说法指出,对于xAI的研究者,马老板曾承诺过价值2亿美元的期权。

马斯克,全力进军超算

相信大家都已经发现:马斯克的超算野心,是愈发藏不住了!

隔三岔五的,就会有劲爆消息曝出。

7月底,xAI启动了位于孟菲斯的超级AI集群的训练,该集群由十万个液冷H100 GPU组成。

十万个H100 GPU消耗的电力大约在70兆瓦,因此这个超算至少会消耗150兆瓦的电力。

8月底,特斯拉宣布了Cortex AI集群,包括5万个英伟达H100 GPU,和2万个特斯拉的Dojo AI晶圆级芯片。

如今看来,这些集群很可能都正式投入运行,甚至已经在训练AI模型了。

不过,马斯克真的有能力让它们全部在线吗?

首要问题是,要调试和优化这些集群的设置,需要一定时间。

其次,xAI还得确保它们获得足够的电力。

我们知道,虽然马斯克的公司一直在用14台独立发电机为其供电,但要为十万块H100 GPU供电,这些电力显然不够。

训练xAI的Grok 2,需要两万块H100;而马斯克预测,要训练Grok 3,可能会需要十万块H100。

所以,xAI的数据中心,建得怎么庞大都不过分。

建设速度太快,推测是「部分上线」

122天,也就是4个月的时间,建成10万张H100组成的超算集群,这是个什么速度?

有业内人士表示,通常完成这样一个集群可能需要一年时间。

这个速度,这个规模,很马斯克。

但也有人猜测,他可能有夸大其词的倾向,高估了在单一集群中实际运行的GPU数量。

囤足10万张芯片、放在一起共同运行,并不意味着就是单一集群。

论GPU数量,Meta在今年1月就已经计划采购35万张H100,但实际运行时是分成了不同集群。

之所以还没有其他公司能造出10万GPU规模的集群,很难说是因为缺钱,更重要的因素是网络解决方案。

串联起所有GPU的网络,需要保证足够的高带宽、低延迟和可靠性,才能让10万张芯片协同起来像一台计算机一样工作。

Colossus是二战期间第一台可编程计算机,也曾在科幻电影里登场

除了网络,还有电力问题。

马斯克此前表示,Colossus在6月底已经启动运行,当时,电力公司供应的最高功率只有几兆瓦,仅能供应数千个GPU同时运行。

电力公司表示,到8月,xAI将获得大约50兆瓦的电力,但这只能供应大约5万个芯片。

与此同时,现场即将建成的另一个发电站将提供另外150兆瓦,可以满足10万个或更多芯片的电力需求,但要到明年才能实现。

马斯克似乎找到了一个短期解决方案:引入化石能源发电机。

Colossus所在地,田纳西州孟菲斯的环保组织前几天刚刚写信控诉马斯克,指责他在没有许可的情况下安装了至少18台涡轮机(可能更多),加剧了当地的空气污染。

出于网络和电力两方面的限制因素,The Information指出,马斯克的这个集群可能只是「部分完成」

除了Colossus和微软在凤凰城为OpenAI建造的超算集群,多个类似的集群也正处在研发和建设过程中。

奥特曼:微软爸爸,我们的算力不够了

尽管如此,马斯克这个超大集群的进展,还是让一些竞争对手极度担心!

其中一位,就是OpenAI的CEO Sam Altman。

根据内部消息,奥特曼已经向一些微软高管透露了自己的担忧——

他十分担心,xAI很快就拥有比OpenAI更多的算力!

虽然为OpenAI提供算力的微软老大哥,资金实力非常雄厚,但作为上市公司,微软在花费资金时,还需要对公众股东负责。

但马斯克则完全没有这样的限制,尽管他的资金不如微软。

甭管马斯克有多少吹牛的成分,即使能部分完成Colossus集群的建成,也是一件令人印象深刻的事。

外媒The Information猜测,马斯克这种神奇的赶工速度,是否放弃了传统的例行安全检查?

毕竟,如果按例检查的话,可能会让数据中心项目的竣工延迟数月。

而且,The Information还发现了一个「华点」:Colossus位于以前的制造工厂内,这可不是适合高性能计算的理想场所。

微软和英伟达的高管透露,这是他们最不愿意放置昂贵硬件的地点之一。

因为这些地方很难改造,来适应服务器耗费的巨大电量,和数据中心设备需要的冷却技术。

咱们都知道,马老板一向喜欢突破边界,而在质疑声纷至沓来时,他又经常被证明是正确的。

最近在xAI的姊妹公司X,马斯克又有了一个惊人之举:关闭了一个数据中心。

当时大家都担心,X会因此而崩溃。结果谁也没想到,X运行得很好,马斯克居然有如此先见之明。

而这次,马斯克在田纳西州的超算,也同样可能会对AI开发者振聋发聩——

或许他们会发现,传统的做事方式如今已经过时了。

两家神秘AI巨头,正计划打造1250亿美元超算

如今,数据中心之战,竞争还在火热加剧!至少有六大巨头,已经下场了。

根据北达科他州官员的披露,除了微软、OpenAI和xAI,还有两家AI巨头也正在酝酿建造「巨型AI数据中心」。

这两家公司找到了商务专员Josh Teigen和州长Doug Burgum,商讨建立巨型AI数据中心。

除了技术研发,这类数据中心也对资源和基础设施提出了很高的要求。

不仅需要采购足够的芯片和相关设备,还要留出数万英亩的土地、建设新的发电设施。

马斯克的Colossus要自建发电站才能弄出200兆瓦,而这两家公司可能是因为直接找上了州长,他们的初始电力就能达到500~1000兆瓦,并计划在几年内扩增至5k~1w兆瓦。

这些项目的规模将比现有的任何数据中心,包括Colossus都扩大几个数量级。

100兆瓦可以为7万至10万个家庭供电;去年微软Azure的全球数据中心总共使用了大约5吉瓦(5k兆瓦)的电力。

这就意味着,一个数据中心,可能和整个Azure云服务平台的耗电量相当。

根据会议的音频记录,这类规模的项目耗资可能超过1250亿美元。

在对外会议上,商务专员Teigen没有透露这两家神秘AI巨头的名字,但他表示市值达到了「一万亿美元」。

这就将潜在名单缩小到了美国的大约6家公司,七巨头之六——英伟达、亚马逊、微软、谷歌、Meta和苹果。

微软此前就和OpenAI讨论过建造价值1000亿美元的「星际之门」(Stargate),而且北达科他州长Doug Burgum曾是微软的高管,在2001年以11亿美元向微软出售过自己的一家软件公司。

但我们也知道,谷歌和亚马逊等其他公司也在积极提升其AI计算能力。

揭开美国AI超算的神秘面纱

AI巨头一向对尖端技术严格保密,但他们对开发数据中心所需的技术,保密程度有过之而无不及。

The Information列出了在美国7个州运营或计划中的17个超算数据中心,涉及微软、OpenAI、Meta和xAI等公司。

总的来说,仍在开发或计划阶段的设施建设成本可能超过500亿美元,其中包括约350亿美元的英伟达芯片,以及运营所需的额外数十亿美元。

这些超算估计在数年时间内落成,并需要大量的芯片、土地和电力。

在ChatGPT问世前,GPU集群通常只包含几千个芯片。如今,一些最大的GPU集群拥有超过3万个芯片,上面提到的这些超算更是达到了前所未有的规模。

要为所有计划中的数据中心供电,美国能源部预计会出现电力不足的情况,因此最近提出了一些解决方案,例如资助研究使AI计算更高效。

争夺「下一个高地」

现在,数据中心竞赛的焦点,集中到了英伟达CEO黄仁勋的身上。

就在上周,老黄发表了以下言论,宛如在业内投入一颗炸弹。

此言一出,英伟达的GPU,谁敢不买?

即使已经和博通共同设计出了TPU的谷歌,最近也为英伟达即将推出的Blackwell下了大单。

对GPU的争夺,已经引发了AI开发者及其云供应商之间的紧张局势,甚至,有时还会引发它们和英伟达的摩擦。

比如,马斯克就曾考虑和甲骨文达成一项大规模协议,根据他的计划,xAI将在未来几年内,花费超过100亿美元租赁英伟达的GPU。

而这项谈判最终破裂了,部分原因在于,马斯克认为甲骨文无法足够快地建起超算,而甲骨文则担心,他会把GPU集群放在一个供电不足的地方。

芯片多多,问题多多

很多超大的GPU集群都位于土地辽阔、空间充裕且电力充足的地区。例如,马斯克的Colossus特意选址在田纳西州孟菲斯,亚马逊、Meta和微软都在亚利桑那州的凤凰城地区运营AI服务器。

但随着更大的GPU集群需要更多的电力,AI巨头们正计划在非传统数据中心枢纽的地区建造这些集群。

例如,亚马逊最近在宾夕法尼亚州中部的一座核电站旁边购置了土地,计划供应约一吉瓦(1000兆瓦)的电力。

这足以为整个旧金山供电,或者构建多达100万张GPU的集群。

另一个挑战是如何进行设备冷却。

传统上,数据中心一般采用风冷,但GPU服务器产生的热量远远超过传统服务器。

为了更佳的冷却效果,微软在威斯康星州为OpenAI建设的数据中心预计将使用液冷而非风冷。

毕竟,竞家都All In了,你能不上吗?

六巨头割据,群雄逐鹿,谁将夺得下一个超算高地?

参考资料:

https://www.theinformation.com/articles/why-musks-ai-rivals-are-alarmed-by-his-new-gpu-cluster?rc=epv9gi

https://www.tomshardware.com/tech-industry/artificial-intelligence/xai-colossus-supercomputer-with-100k-h100-gpus-comes-online-musk-lays-out-plans-to-double-gpu-count-to-200k-with-50k-h100-and-50k-h200

https://www.theinformation.com/articles/two-ai-developers-are-plotting-125-billion-supercomputers

https://www.theinformation.com/articles/introducing-the-ai-data-center-database?rc=epv9gi


超级人工智能派对开始了:黄仁勋奥特曼马斯克现GOAT之争

2024年的春天,人类是正在吹起一个史无前例的超级人工智能泡沫,还是开启一个远超工业革命的大繁荣周期,无论是黄仁勋,还是奥特曼和马斯克都是乐观的一方。 马斯克略带伤感的回忆8年前黄仁勋向OpenAI赠送Ai系统的一幕,是他无奈的接受超级人工智能的路线之争刚刚开始。

文丨智驾网 李多鱼、WXY

编辑丨浪浪山上的小猪妖

在英伟达发布2023财年四季报之前三天,刚刚获得诺贝尔和平奖提名的马斯克发布了一组感慨万分的贴文:黄仁勋首次把英伟达AI系统交付给OpenAI的一些照片。

那是八年前的一段往事。

英伟达的2万亿市值与OpenAI的7万亿元美元融资

Nvidia 在2016 年首度发布了全球首款深度学习超级电脑DGX-1,被黄仁勋称为“装进机箱里的数据中心。 ”它搭载新一代GPU 加速器,数据处理能力相当于250 部x86 服务器。

数据中心被黄仁勋称为从通用计算向加速计算的持续转变是英伟达成功的关键之一,这是一种全新的计算方式,甚至是一个全新的行业,也就是人工智能生成工厂。

DGX-1这台机器是马斯克主动开口向黄仁勋索要的。

彼时,马斯克与奥特曼(Sam Altman)等人共同创办非营利的OpenAI刚刚一年,距离他离开OpenAI董事会还有两年时间。

黄仁勋一口答应了马斯克,并亲自将DGX-1送上门。

同时他在机器上写了一段话:

“To Elon & OpenAI Team!To the Future of Computing and Humanity. Present You The Worlds First DGX-1!”(献给马斯克和OpenAI团队,为了算力的未来和人类,我们将全球首款DGX-1做为礼物送给你们!)

随后马斯克回敬写道:谢谢!

时隔8年,马斯克重提往事,既有向黄仁勋致敬之意,也有与OpenAI分道扬镳的不满。

他重新翻找到自己8年前发布的贴文:

“感谢英伟达与黄仁勋把第一台‘DGX-1 AI超级电脑’捐赠给OpenAI,支持AI科技民主化。”

马斯克曾多次提到2015年年底与奥特曼等人创立OpenAI的初衷:开发造福全人类的通用人工智慧(AGI),避免Google之类的大公司或少数人垄断AI的资源。

也就是AI科技民主化,简化为两个原则:技术开源、非盈利性。

2018年时,马斯克认为OpenAI进度远远落后Google,要求并入特斯拉内发展,但遭到奥特曼等其他创办人拒绝,马斯克在OpenAI办公室发表一通演讲后同年离开了董事会。

之后,OpenAI2019年成立营利子公司OpenAI LP,目前二大组织共同营运。

而OpenAI已由微软控制,转用闭源生态方式管理,并转为利润最大化。 奥特曼私下与员工分享他的 2020 年实验室愿景时,传达的信息很明确:OpenAI 需要赚钱来做研究,而不是用研究来赚钱。

回首往事,马斯克开玩笑似着自问自答:“看看现在都发生了什么事”,结尾还加上了一个哭脸的表情符号。

现在都发生了什么事呢?

英伟达发布会2024四季报之后,创始了人类有股市以来最大的单日涨幅,同一时间OpenAI CEO奥特曼抛出了一份高达7万亿美元的融资目标,7万亿美元相当于美国2023年GDP总额的25%,接近德日两国GDP的总和。

黄仁勋被认为比马斯克更有远见,已是史上最佳

AGI生成式人工智能,特别是SORA的出现不仅引发了资本的狂热,也引发了恐慌。

人工智能被认为正来到超级人工智能时代,甚至人类社会生活也被认为已经走到了一个奇点时刻,旧有秩序面临崩溃。

狂热如三大洲的主要股指在同一时间悉数创下历史新高,而华尔街日报将原因归于英伟达2024财年四季报的发布。

继2月22日大涨16%之后,市值一日暴增2770亿美元,并引发了华尔街的全面反弹。 23日晚,开盘即涨3%,股价突破800美元,市值终于如世界各地投资者所原突破2万亿美元,虽然尾盘回落,但已创造传奇,今年两个月以来累涨逾60%。

其市值在超过亚马逊、谷歌之后,成为美股继微软、苹果之后第三、全球第四大公司。

英伟达的大涨,固然与其超预期的2024财年四季报有关,但更多的是SORA的横空出世带给世界的恐慌:被甩下车的恐慌,被拥超级人工智能的组织和政治实体在技术上降维碾压的恐慌。

中美两国的主流技术人员和媒体都在估算两国的技术差距在三至四年之间。

英伟达2024财年第四财季总营收221亿美元,同比增长265%,环比增长22%,净利润123亿美元,同比增长769%,环比增长33%。 去年全年营收609亿美元,同比增长126%,净利润298亿美元,同比增长581%,超过此前六年的总和,其毛利率为72.7%,净利率高达48.9%。

而对2025财年,其预计第一季度收入240亿美元,同比增长234%,远超市场预期的218亿美元;毛利率76.3%,也超市场预期的75.1%。

英伟达的营收和利润暴涨,主要源于其数据中心业务,公开信息显示,一颗H100售价高达3万美元,而成本不到5000美元。

英伟达的数据中心早已贵过黄金,是这个时候不折不扣的硬通货。

接近于蒸汽机、PC、互联网在人类历史中的地位。

不过,对英伟达的批评也有。

因为对于AGI生成式人工智能,到底是应该是淘金热中卖铁锨的英伟达站上“宇宙硬核第一股”垄断算力资源的生产工具,还是像OpenAI这样的应用开发团队执掌上帝之鞭。

AJ Bell投资总监Russ Mould表示:“在十九世纪中期的淘金热中赚到最多钱的人是那些提供工具的人,而不是那些寻找金矿的人。 今天,英伟达在这场技术革命中实际上扮演着同样的角色。 ”

马斯克的铁粉,美国知名股评人吉姆·克莱默毫不犹豫的将这黄仁勋推上了神坛。

当被问及他是否认为黄仁勋是一个比马斯克更有远见的人时,克莱默毫不犹豫地回答“是的”,并称其为“GOAT”,GOAT“即Greatest of All Time首字母缩写,意为有史以来最伟大”。

▲二十年前,黄仁勋曾经和员工打赌,如果英伟达股价超过100美元,他就把公司Logo纹在自己的手臂上。 后来他兑现了承诺。 不过,即便英伟达股价再突破1000美元,黄仁勋发誓不会纹身了。

克莱默说:“我认为马斯克可以预见未来,但我认为Jensen(黄仁勋)正在思考改变整个世界模式的遗产。 Jensen一手缔造了一场工业革命。 ”

今天美国的资本市场也认可这一判断。

英伟达已取代特斯拉,成为美股成交量最大的公司。 其每日交易额超过600亿美金,是特斯拉的3倍多。

华尔街日报称,以某些指标衡量,英伟达的人气甚至已高过长期以来颇受普通投资者青睐的特斯拉。券商伯恩斯坦的分析师斯泰西·拉斯冈(Stacy Rasgon)在给客户的一份报告中写道:“从长远来看,该公司不仅认为当前安装的1万亿美元数据中心基础设施将加速计算,而且还认为在未来五年内,安装基数将增加一倍,达到2万亿美元。”据估算,英伟达 AI 芯片占据全球该领域销售额的 70% 左右。本周三黄仁勋表示,生成式人工智能现在已经「达到了临界点」,全球的公司、各行业和国家的需求都在激增。

现年61岁的黄仁勋持有英伟达3.1%的股份,在彭博社全球富豪排行榜上名列第21位,身家据估算为681亿美元,超过了科氏集团董事长查尔斯·科赫(Charles Koch),紧追沃尔玛的沃尔顿家庭成员(Walton family)。

显然未来真正威胁马斯克世界首富地位的非黄仁勋莫属。

而黄仁勋风头之盛,似乎无人可敌。

马斯克在2016年感谢黄仁勋赠送数据中心的贴文中表示:“超级钦佩黄仁勋和英伟达,他们的工作成效惊人。 老实说,若英伟达供应足够CPU,特斯拉或许不需要Dojo运算平台。 但英伟达没有办法,他们有非常多的客户。 ”

“一旦英伟达有货,我们就赶紧采购。 ”这句话是马斯克亲口所述。 特斯拉需要英伟达硬件及相关软件来改善其自驾系统,特斯拉的Dojo及英伟达硬件可让车辆具备自动驾驶功能。

Dojo是特斯拉自主开发的一款超级计算机,使用特斯拉设计的芯片和基础设施,并借助特斯拉车队的视频数据进行神经网络能力训练。 马斯克曾表示,Dojo已开始投产。 这意味特斯拉自研Dojo超级计算机很有可能摆脱对英伟达GPU的依赖。

摩根士丹利认为,Dojo在软件和服务方面对特斯拉来说最具价值,分析师亚当·乔纳斯(Adam Jonas)在报告中表示,Dojo可以打开新的潜在市场,将“远不止以固定价格销售汽车”。

Dojo会对英伟达构成竞争压力吗?显然还远。

03.

奥特曼惊诧世人的7万亿美元计划

不过,在传闻中第一个站出来背刺黄仁勋的正是受益英伟达最大的OpenAI的CEO奥特曼。

奥特曼被曝正从中东地区筹集总计高达7万亿美元的资金,以支持OpenAI的一项半导体计划,并与英伟达展开竞争。

国外媒体援引知情人士的话称,奥特曼正在建议OpenAI、投资者、芯片制造商和能源供应商之间建立合作,将共同出资建造芯片工厂。

文章透露,最近数周时间,奥特曼已经与多位人士进行了会谈,包括软银和台积电等,甚至包括阿联酋总统的兄弟谢赫·塔农·本·扎耶德·阿勒纳哈扬,他同时是阿布扎比多个主权财富基金的主席。7万亿美元的融资规模捅破了人类想像力的天花板,引发了广泛的探讨和争论。

▲网友计算7万亿美元可以购买多少世界产业巨头

2月初,在迪拜举行的世界政府峰会上,当黄仁勋被问及“7万亿美元可以购买多少个GPU时”。

他打趣道:“显然是所有的GPU。”

不过奥特曼并没有在正式场合承认正在开启一轮7万亿元美元的融资。

在美国当地时间2月21日,由英特尔在圣何塞举办的Intel Foundry Direct Connect 2024论坛上,英特尔CEO帕特·基辛格与山姆·奥特曼在进行的一场对话中谈到了7万亿美元自研AI芯片,重塑半导体格局的传闻。

基辛格也向奥特曼问出了这个备受关注的问题:“7万亿(美元)是怎么想的?”

奥特曼并未正面回答这一问题,他说不要纠缠于和媒体修正数字,而是强调:

“事实的核心在于不仅意味着大量的芯片需求,数据中心的巨大电力需求等,这将需要大量的全球投资。 很多人正在考虑的只是芯片,但实际上基础设施的整体成本也会非常高,我们正在想办法解决这个问题,即使目前还处于非常早期的阶段。 企业和个人都将从人工智能中获益,但目前显然面临着严重的算力短缺,我们希望确保未来使用人工智能将更容易且成本更低,而不是仅有最富有的公司才能负担得起大量的人工智能计算。

奥特曼表示:“这将需要全球大量的投入,超出我们的想象。 我们现在还没有一个具体数字”。

他说:“我们正走向这样一个世界:人工智能生成的内容将多于人类生成的内容。 这不仅仅是一个好故事,更是一个纯粹的好故事。 ”

显然奥特曼意在强调为构建全球化的人工智能基础设施不仅取决于芯片,还有能源。

而黄仁勋在回应奥特曼的天文数字融资规模时说:“如果你认为计算机无法发展得更快,可能会得出这样的结论:我们需要14颗行星、3个星系和4个太阳来为这一切提供燃料。 但是,计算机架构其实在不断地进步。 ”

对于咨询公司预测2029年全

「大模型+大算力」加持,通用人工智能和智能驾驶双向奔赴

开年以来 ChatGPT、GPT-4 的相继面世再度掀起计算机科学领域通用人工智能(AGI)研究热潮,也不断刷新我们对 AI 的认知。

作为具有人类水平表现的大型多模态模型,GPT-4 被视为迈向 AGI 的重要一步,标志着创新范式的深度变革和生产力的重新定义,也必将带来更多元的产品迁移。

截至目前,全球已经有超百万家初创公司声称使用这一秘密武器来创造新产品,而这些产品将彻底改变从法律到股票交易,从游戏到医疗诊断的近乎一切领域。

尽管其中很多是营销泡沫,但与所有技术突破一样,总会存在炒作周期和意想不到的远期效果。

事实上在另一边,进入 2023 年智能汽车领域同样十分热闹。

智能化已然成为上海车展全场关注的最大焦点,除了激光雷达等关键传感器的单点式突破,各大巨头也纷纷展示智能驾驶全产品矩阵,城市场景辅助驾驶量产落地加速推进。

更加值得注意的是,BEV、大模型、超算中心等计算机热词正在与自动驾驶、行泊一体、城市 NOA 等智驾焦点火速排列组合,颇有相互交融、双向奔赴的味道。

在这背后,一方面是近年来智驾、智舱持续升级对 AI 在汽车场景落地的数据、算法、算力不断提出更高要求,另一方面,AGI 的重大突破也已将触角伸向智能汽车,将其视为实现闭环应用的重要场景,很多企业布局已经相当高调。

日前,商汤科技 SenseTime 举办技术交流日活动,分享了以「大模型+大算力」推进 AGI 发展的战略布局,并公布该战略下的「日日新 SenseNova」大模型体系。

在「大模型+大算力」加持下,本次上海车展商汤绝影驾、舱、云一体产品体系已全栈亮相,近 30 款合作量产车型集中展出,商汤也再度分享了智能汽车时代的 AGI 落地新思考。

本次上海车展亮相的部分绝影合作车型展示

算法:AI 正式步入大模型时代

如商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚所言,「AGI 催生了新的研究范式,即基于一个强大的多模态基模型,通过强化学习和人类反馈不断解锁基模型新的能力,从而更高效地解决海量的开放式任务。」

通用大模型并非为自动驾驶而生,或为满足自动驾驶的特定任务需求而设计。 但智能驾驶开发的诸多新需求已在推动算法从专用小模型向通用大模型快速演进。

首先是应对海量数据处理和 Corner Case 问题的迫切需求。

对于感知系统低频出现但至关重要的小目标及带来的潜在安全隐患,算法开发需要面对海量数据,传统的 AI 小模型将难以同时处理大数据量和高复杂度的任务。 通用大模型则可用在长尾目标的初筛过程,并叠加语料文字处理得到很好的效果。

再比如智驾算法开发对自动化数据标注、降低人工成本的诉求。 相比于人工标注,通用大模型将自动化对海量数据完成标注任务,大幅降低标注数据获取的时间成本和本身的金钱成本,从而缩短研发周期、提升成本效益。

处于类似的考量,近年来国内外巨头企业已围绕大模型纷纷展开各自智驾布局。

继 Google 于 2017 年提出将 Transformer 结构应用在 CV 领域图像分类,大模型已在 GPT-2、GPT-3、BERT 等当中不断证明实力,特斯拉率先站台 Transformer 大模型征战图像视觉。

国内企业也紧随其后:

毫末智行已宣布自动驾驶认知大模型正式升级为 DriveGPT,网络表示利用大模型来提升自动驾驶感知能力并将大模型运用到数据挖掘,华为也已宣布加入大模型争霸赛,自研「盘古」即将对外上线。

作为行业领先的人工智能公司,商汤在大模型领域可谓乘风破浪,过去一两年则全面将大模型能力在各业务线 20 多个场景落地,包括智能驾驶。

商汤「日日新 SenseNova」大模型体系背后是大模型研发中深厚的积累。 商汤有自己的全栈大模型研发体系,其中就包括针对大模型的底层训练及实施过程中的各种系统性优化。

例如,商汤近期向社区发布的用于真实感知、重建和生成的多模态的数据集 OmniObject3D 中包含 190 类 6000 个物体,数据质量非常高。

再比如,商汤在 2019 年就已首次发布 10 亿参数的视觉大模型,到 2022 年参数规模已达到 320 亿,这也是世界上迄今为止最大的视觉模型。

此外,商汤也在智驾领域持续展示大模型能力。 2021 年开发的 BEV 感知算法在 Waymo 挑战赛以绝对优势取得冠军,2021 年 BEV Former 的 Transformer 结构至今仍是行业最有影响力的 BEV 工作,今年开发的 UniAD 是业内首个感知决策一体化的端到端自动驾驶解决方案。

在技术实力的另一端是量产进度。商汤也给出了自己的智能驾驶量产公式:

自动驾驶技术能力=场景数据 x 数据获取效率 x 数据利用效率² =场景数据 x 数据获取效率 x 先进算法 x 先进算力。

而先进的算法大模型不仅将通过跨行业数据汇聚提升驾驶场景数据资源,通过数据闭环开发模式和自动数据标注提升数据获取效率,更将大幅提升感知精度和感知丰富度进而成倍提升数据利用效率。

依托原创 AI 算法和模型积累,商汤领先的 BEV 感知算法推进国内首批量产应用,并采用 Domain Adaption 算法有效解决跨域泛化问题。 商汤首创的自动驾驶 GOP 感知体系将目标数据获取的人力成本降低 94%,实现低成本的车端模型开发,目前也已投入量产应用。

算力:智能汽车时代的重要基础设施

随电子电气架构技术由分布式不断向集中式演进,大算力芯片成为新型电子电气架构实现的物理基础。

近年来车端芯片算力发展突飞猛进,如英伟达规划中的 Atlan 单颗芯片算力超 1000TOPS,THOR 单颗算力超 2000TOPS,将大幅提升单车感知决策能力。

而在云端,AGI 在自动驾驶、网联等场景的泛化应用将提出比车端指数级更高的算力要求——从数据标注到模型训练,从场景仿真到算法迭代。

算力将是智能汽车时代的新型基础设施。

在此背景下,近年来主流企业纷纷开启双线并行探索,车端自研算力平台,云端建立超算中心。 而进入大模型时代后,数据量随着多模态的引入也将大规模增长,因此必然也会导致 AGI 对算力需求的剧增。

可以看到,英伟达车端云端同步布局并将提供端到端的全栈式 AI 加速计算解决方案,特斯拉也早在 2021 年 8 月发布自研云端超算中心 Dojo。

据近期报道,埃隆·马斯克也将成立一家人工智能公司来与 OpenAI 竞争,已购买数千个英伟达 GPU 并一直招募 AI 研究人员和工程师。

国内方面,吉利、蔚来、特斯拉、毫末智行、小鹏等企业也已跟进布局云端算力集群,投入巨大以提升智驾开发算力储备。

对于商汤来说,如果说大模型将是支撑智能驾驶的上层建筑,那么大算力就是数字基座。

商汤科技董事长兼 CEO 徐立表示,目前大模型对基础算力、基础设施的需求非常旺盛,基础算力对并行效率的要求也非常高,但真正好用的基础设施其实十分稀缺。

出于这一原因,商汤历时五年自建了业界领先的 AI 大装置 SenseCore,完成 2.7 万块 GPU 的部署并实现 5.0 exa FLOPS 的算力输出能力,是亚洲目前最大的智能计算平台之一,可同步支持 20 个千亿规模参数量的超大模型同时训练。

位于上海临港的 AIDC 人工智能计算中心将为智能汽车的数据存储、标注、脱敏、仿真训练、算法迭代到部署的闭环提供算力支持,打通基于数据驱动的算法生产全流程,加速高级别智能驾驶技术的 AI 模型生产和持续迭代,推动实现规模化量产。

在 AIDC 的基础上,AI 大装置也将提供支持大模型生产的一系列服务:

如此规模的算力设施即使特斯拉同期也尚难以望其项背,也必将推动大模型的高效闭环。

「大模型+大算力」推动智能汽车行业整体进程

汽车行业正在面临百年未有之大变革。 尽管此次以「大模型+大算力」推进 AGI 发展是商汤提出的战略布局,但事实上,这一理念早已在行业层面达成共识。

基于感知、决策规控和 AI 云三大核心能力,商汤「大模型+大算力」已赋能绝影驾、舱、云三位一体产品体系量产落地:

除智能驾驶领域的全栈能力和行泊一体量产解决方案外,「大模型+大算力」也正在助力商汤打造智能座舱跨场景生态。

车展期间,与商汤「日日新 SenseNova」大模型体系深度融合的绝影未来展示舱升级亮相,语言大模型「商汤商量 SenseChat」以及 AIGC 文生图平台「商汤秒画 SenseMirage」也已上车,多点融合重构人车交互方式,打造第三空间。

以「商量」为例,作为千亿级参数的自然语言处理模型,其使用大量数据训练并充分考虑中文语境,展示出出色的多轮对话和超长文本的理解能力。

商汤也展示了语言大模型支持的诸多汽车场景创新应用,如在行车过程中化身「邮件助手」自动提炼关键信息,作为「会议助理」自动生成会议纪要,大大节省用户行车时处理工作的时间和精力,为未来出行的应用场景拓展带来丰富的想象空间。

此外,以人工智能大模型开发、生产、应用为核心,一站式

  • 声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
  • 本文地址:https://srwj168.com.cn/keji312/20190.html
讲卡伤感情 沈向洋对大模型的八点思考 没卡没感情
湃泊科技完成亿元级融资 推进国产激光热沉量产