Meta训AI 赛过OpenAI星际之门 成本已超阿波罗登月!谷歌豪言投资超千亿美元

新智元报道

编辑:Aenea 好困

【新智元导读】 近日访谈中,LeCun亲口证实:Meta为购入英伟达GPU已经花费了300亿美元,成本超过阿波罗登月。相比之下,微软和OpenAI打造的星际之门耗资1000亿美元,谷歌DeepMind CEO Hassabis则放出豪言:谷歌投入的,比这个数还多!大科技公司们烧起钱来是越来越不眨眼,毕竟,AGI的前景实在是太诱人了。

就在刚刚,Meta AI主管Yann LeCun证实:为了买英伟达GPU,Meta已经花了300亿美元,这个成本,已经超过了阿波罗登月计划!

300亿美元虽然惊人,但比起微软和OpenAI计划打造的1000亿美元星际之门,这还是小case了。

谷歌DeepMind CEO Hassabis甚至放话称:谷歌要砸进的数,比这个还多。

这才哪到哪呢。

LeCun:Meta买英伟达GPU,的确超过阿波罗登月

为 了发展AI,Meta是破釜沉舟了。

在这个访谈中,主持人问道:据说Meta购入了50万块英伟达GPU,按照市价算的话,这个价格是300亿美元。所以,整个成本比阿波罗登月项目话要高,对吗?

对此,LeCun表示承认:是的,的确如此。

他补充道,「不仅是训练,还包括部署的成本。我们面临的最大问题,就是GPU的供给问题。」

有人提出质疑,认为这应该不是真的。作为史上最大的推理组织,他们应该不是把所有的钱都花在了训练上。

也有人戳破了这层泡沫,表示每个巨头都在撒谎,以此营造「自己拥有更多GPU」的假象——

虽然的确在英伟达硬件上投入大量资金,但其实只有一小部分用于实际训练模型。「我们拥有数百万个GPU」的概念,就是听起来好吹牛罢了。

当然,也有人提出质疑:考虑通货膨胀,阿波罗计划的成本应该是接近2000-2500亿美元才对。

的确,有人经过测算,考虑阿波罗计划1969年的原始价值、根据通货膨胀进行调整的话,它的总成本应该在2170亿或2410亿美元。

https://apollo11space.com/apollo-program-costs-new-data-1969-vs-2024/

而沃顿商学院教授Ethan Mollick表示,虽然远不及阿波罗计划,但以今天的美元计算,Meta在GPU上的花费几乎与曼哈顿计划一样多。

不过至少,网友们表示,很高兴对巨头的AI基础设施有了一瞥:电能、土地、可容纳100万个GPU的机架。

开源Llama 3大获成功

此外,在Llama 3上,Meta也斩获了亮眼的成绩。

在Llama 3的开发上,Meta团队主要有四个层面的考量:

模型架构

架构方面,团队采用的是稠密自回归Transformer,并在模型中加入了分组查询注意力(GQA)机制,以及一个新的分词器。

训练数据和计算资源

由于训练过程使用了超过15万亿的token,因此团队自己搭建了两个计算集群,分别具有24000块H100 GPU。

指令微调

实际上,模型的效果主要取决于后训练阶段,而这也是最耗费时间精力的地方。

为此,团队扩大了人工标注SFT数据的规模(1000万),并且采用了诸如拒绝采样、PPO、DPO等技术,来尝试在可用性、人类特征以及预训练中的大规模数据之间找到平衡。

如今,从最新出炉的代码评测来看,Meta团队的这一系列探索可以说是大获成功。

Symflower首席技术官兼创始人Markus Zimmermann在对GPT-3.5/4、Llama 3、Gemini 1.5 Pro、Command R+等130多款LLM进行了全面评测之后表示:「大语言模型的王座属于Llama 3 70B!」

- 在覆盖率上达到100%,在代码质量上达到70%

- 性价比最高的推理能力

- 模型权重开放

不过值得注意的是,GPT-4 Turbo在性能方面是无可争议的赢家——拿下150分满分。

可以看到,GPT-4(150分,40美元/百万token)和Claude 3 Opus(142分,90美元/百万token)性能确实很好,但在价格上则要比Llama、Wizard和Haiku高了25到55倍。

具体来说,在Java中,Llama 3 70B成功识别出了一个不容易发现的构造函数测试用例,这一发现既出人意料又有效。

此外,它还能70%的时间编写出高质量的测试代码。

GPT-4 Turbo在生成测试代码时倾向于加入一些明显的注释,但这在高质量的代码编写中通常是需要避免的。

测试代码的质量大大受到微调的影响:在性能测试中,WizardLM-2 8x22B比Mixtral 8x22B-Instruct高出30%。

在生成可编译代码的能力方面,较小参数的模型如Gemma 7B、Llama 3 8B和WizardLM 2 7B表现不佳,但Mistral 7B却做得很好。

团队在评估了138款LLM之后发现,其中有大约80个模型连生成简单测试用例的能力都不可靠。

如果得分低于85分,就意味着模型的表现不尽如人意。不过,上图并未完全反映评测中的全部发现和见解,团队预计将在下个版本中进行补充

详细评测可进入下面这篇文章查看:

评测地址:https://symflower.com/en/company/blog/2024/dev-quality-eval-v0.4.0-is-llama-3-better-than-gpt-4-for-generating-tests/

想要赢得人工智能战争,代价昂贵到惨烈

如今,各大科技公司都在付出昂贵的代价,争取打赢这场AI战争。

让AI变得更智能,科技巨头们需要花费多少资金?

谷歌DeepMind老板Demis Hassabis在半个月前的TED大会上做出了预测:在开发AI方面,谷歌预计投入1000多亿美元。

作为谷歌人工智能计划最中心、最灵魂的人物,DeepMind实验室的领导者,Hassabis的这番言论,也表达了对OpenAI的毫不示弱。

根据The Information报道,微软和OpenAI计划花1000亿美元打造「星际之门」,这台超算预计包含数百万个专用服务器芯片,为GPT-5、GPT-6等更高级的模型提供动力。

当Hassabis被问及竞争对手花在超算上的巨额成本时,他轻描淡写地指出:谷歌的花费可能会超出这个数字。

如今,生成式AI的热潮已经引发了巨大的投资热。

根据Crunchbase的数据,仅AI初创企业,去年就筹集了近500亿美元的资金。

而Hassabis的发言表明,AI领域的竞争丝毫没有放缓的意思,还将更加白热化。

谷歌、微软、OpenAI,都在为「第一个到达AGI」这一壮举,展开激烈角逐。

1000亿美元的疯狂数字

在AI技术上要花掉超千亿美元,这1000亿都花会花在哪里呢?

首先,开发成本的大头,就是芯片。

目前这一块,英伟达还是说一不二的老大。谷歌Gemini和OpenAI的GPT-4 Turbo,很大程度上还是依赖英伟达GPU等第三方芯片。

模型的训练成本,也越来越昂贵。

斯坦福此前发布的年度AI指数报告就指出:「SOTA模型的训练成本,已经达到前所未有的水平。」

报告数据显示,GPT-4使用了「价值约7800万美元的计算量来进行训练」,而2020年训练GPT-3使用的计算量,仅为430万美元。

与此同时,谷歌Gemini Ultra的训练成本为1.91亿美元。

而AI模型背后的原始技术,在2017年的训练成本仅为900美元。

报告还指出:AI模型的训练成本与其计算要求之间存在直接关联。

如果目标是AGI的话,成本很可能会直线上升。

1.9亿美元:从谷歌到OpenAI,训练AI模型的成本是多少

说到这里,就让我们盘一盘,各大科技公司训练AI模型所需的成本,究竟是多少。

最近的《人工智能指数报告》,就披露了训练迄今为止最复杂的AI模型所需要的惊人费用。

让我们深入研究这些成本的细分,探讨它们的含义。

Transformer(谷歌):930美元

Transformer模型是现代AI的开创性架构之一,这种相对适中的成本,凸显了早期AI训练方法的效率。

它的成本,可以作为了解该领域在模型复杂性和相关费用方面进展的基准。

BERT-Large(谷歌):3,288美元

与前身相比,BERT-Large模型的训练成本大幅增加。

BERT以其对上下文表征的双向预训练而闻名,在自然语言理解方面取得了重大进展。然而,这一进展是以更高的财务成本为代价的。

RoBERTa Large(Meta):160美元

RoBERTa Large是BERT的一个变体,针对稳健的预训练进行了优化,其训练成本的跃升,反映了随着模型变得越来越复杂,计算需求也在不断提高。

这一急剧增长,凸显了与突破人工智能能力界限相关费用在不断上升。

LaMDA (谷歌): $1.3M美元

LaMDA旨在进行自然语言对话,代表了向更专业的AI应用程序的转变。

训练LaMDA所需的大量投资,凸显了对为特定任务量身定制的AI模型需求的不断增长,后者就需要更广泛的微调和数据处理。

GPT-3 175B(davinci)(OpenAI):$4.3M

GPT-3以其庞大的规模和令人印象深刻的语言生成能力而闻名,代表了AI发展的一个重要里程碑。

训练GPT-3的成本,反映了训练如此规模的模型所需的巨大算力,突出了性能和可负担性之间的权衡。

Megatron-Turing NLG 530B (微软/英伟达): $6.4M

训练Megatron-TuringNLG的成本,说明了具有数千亿个参数的更大模型的趋势。

这种模型突破了AI能力的界限,但带来了惊人的训练成本。它大大提高了门槛,让业领导者和小型参与者之间的差距越拉越大。

PaLM(540B)(谷歌):$12.4M

PaLM具有大量的参数,代表了AI规模和复杂性的巅峰之作。

训练PaLM的天文数字成本,显示出推动AI研发界限所需的巨大投资,也引发了人们的质疑:这类投资真的是可持续的吗?

GPT-4 (OpenAI): $78.3M

GPT-4的预计训练成本,也标志着人工智能经济学的范式转变——AI模型的训练费用达到了前所未有的水平。

随着模型变得越来越大、越来越复杂,进入的经济壁垒也在不断升级。此时,后者就会限制创新,和人们对AI技术的可得性。

Gemini Ultra(谷歌):$191.4M

训练Gemini Ultra的惊人成本,体现了超大规模AI模型带来的挑战。

虽然这些模型表现出了突破性的能力,但它们的训练费用已经达到了天文数字。除了资金最充足的大公司之外,其余的企业和组织都被挡在了壁垒之外。

芯片竞赛:微软、Meta、谷歌和英伟达争夺AI芯片霸主地位

虽然英伟达凭借长远布局在芯片领域先下一城,但无论是AMD这个老对手,还是微软、谷歌、Meta等巨头,也都在奋勇直追,尝试采用自己的设计。

5月1日,AMD的MI300人工智能芯片销售额达到10亿美元,成为其有史以来销售最快的产品。

与此同时,AMD还在马不停蹄地加大目前供不应求的AI芯片的产量,并且预计在2025年推出新品。

4月10日,Meta官宣下一代自研芯片,模型训练速度将获巨大提升。

Meta训练和推理加速器(MTIA)专为与Meta的排序和推荐模型配合使用而设计,这些芯片可以帮助提高训练效率,并使实际的推理任务更加容易。

同在4月10日,英特尔也透露了自家最新的AI芯片——Gaudi 3 AI的更多细节。

英特尔表示,与H100 GPU相比,Gaudi 3可以在推理性能上获得50%提升的同时,在能效上提升40%,并且价格更便宜。

3月19日,英伟达发布了「地表最强」AI芯片——Blackwell B200。

英伟达表示,全新的B200 GPU可以凭借着2080亿个晶体管,提供高达20 petaflops的FP4算力。

不仅如此,将两个这样的GPU与一个Grace CPU结合在一起的GB200,可以为LLM推理任务提供比之前强30倍的性能,同时也可大大提高效率。

此外,老黄还曾暗示每个GPU的价格可能在3万到4万美元之间。

2月23日,英伟达市值一举突破2万亿美元,成为了首家实现这一里程碑的芯片制造商。

同时,这也让英伟达成为了美国第三家市值超过2万亿美元的公司,仅次于苹果(2.83万亿美元)和微软(3.06万亿美元)。

2月22日,微软和英特尔达成了一项数十亿美元的定制芯片交易。

据推测,英特尔将会为微软生产其自研的AI芯片。

2月9日,《华尔街日报》称Sam Altman的AI芯片梦,可能需要高达7万亿美元的投资。

「这样一笔投资金额将使目前全球半导体行业的规模相形见绌。去年全球芯片销售额为5270亿美元,预计到2030年将达到每年1万亿美元。」

参考资料:

https://twitter.com/tsarnick/status/1786189377804369942

https://www.youtube.com/watch?v=6RUR6an5hOY

https://twitter.com/zimmskal/status/1786012661815124024

https://symflower.com/en/company/blog/2024/dev-quality-eval-v0.4.0-is-llama-3-better-than-gpt-4-for-generating-tests/

https://techovedas.com/190-million-what-is-the-cost-of-training-ai-models-from-google-to-openai/


登月骗局有哪些证据

所谓“登月骗局”,是一些缺乏科学常识的阴谋论者自命不凡的杜撰。 他们罗列的所谓“星条旗飘扬”、“光影不统一”、“上升段发动机能力”之类问题早已经被逐一“科普”过了,稍有科学素养的人都可以释疑了。 另外,这些杜撰的所谓证据有一个共同点:没有任何严谨的分析,没有数据,没有计算,没有实验验证,一切都以人的直觉、感觉为基础。 这也是当代谣言和伪科学的共同特征。

大学生第一份工作为什么要去大公司?

刚毕业的大学生是去大公司还是小公司?这是个问题。 大公司钱多,福利好,有保障,但上升空间有限;小公司上升空间大,制度自由,有主人翁感觉。 如果运气比较好,赶上了2011年的美团、2013年的滴滴头条,2016年的摩拜或者ofo,会有非常好的发展。 但对于即将步入职场的大学生来说,去BAT这种大公司无疑是一个最好的选择。 什么是大公司,什么是小公司,每个人都有自己的定义和判断,我们这里不做定义,你觉得OK就好。 那么,大学生第一份工作去大公司到底有什么好处呢?1、钱多,工资起点高。 从整个互联网行业来说,大公司的薪水比一般的中型和早期创业公司薪水会高出不少,毕竟对阿里腾讯这种数千亿美元市值的巨头来说,一年几十万的工资对他们来说都是毛毛雨,而一个好不容易融资几百万的小公司来说,一年几十万的工资是不可想象的。 2017年秋招,包括谷歌、微软、BAT在内的大型互联网公司给AI、大数据方面的人才开出了50万元以上的年薪,一般的硕士学历的工程师的薪水也在20万以上,本科生接近20万。 根据我身边的例子,2016年,有个运营妹子以实习的身份加入BAT中的一家,转正之后的年薪在15万左右,一年之后就涨到了20万,无论起薪还是涨幅都还是相当可以。 如果她去的是一般的小公司,还做同样的运营工作,第一年的月薪估计在6-8K之间,一年后最多涨到10K,差距还是相当明显的。 2、待遇好,各种福利。 大公司经过多年的发展,福利相对都比较好:全额缴纳社保公积金、补充医疗保险、一年10天以上的带薪年假、一年至少一次的国内外团建等,都是很多小公司不能满足的,一般的小公司为了避税,都是按照最低标准缴纳保险和公积金,一年能有5天年假就不错了。 除此之外,以BAT为首的大公司针对优秀的应届毕业生还能提供一些北京、上海、深圳的落户指标,还能为一些符合条件的员工提供工作居住证、无息贷款等隐性福利。 这些对身在北京的北漂来说,是相当重要的。 除此之外,免费早餐、免费水果、加班打车报销等小恩小惠,对刚步入职场的大学生来说也有一定的吸引力。 3、有保障,制度完善。 大公司保障会好一些。 虽然互联网行业发展速度很快,导致很多从业者内心浮躁,跳槽频繁,但无论是公司还是个人,内心都还是希望能在一家公司稳定的待上两三年,而不是频繁的跳槽。 这时候,大公司的优势就很明显的提现出来了,如果你毕业能在一家公司的核心部门,比如网络的大搜索,阿里的淘宝,天猫,腾讯的QQ微信,只要你的能力不是特别差,稳定的待上3年是没有任何问题的,即便你去了这些大厂的边缘部门或者新业务线,即便这个产品被砍掉,你也有选择transfer到公司其他部门的机会,再退一万步,即便被裁员,也还有至少N+1的补偿在等着你;而小公司一旦碰上了资金链断裂或者业务转型,你面对的将是直接被裁员,而且还不一定有N+1的补偿。 4、能学习,有大牛带。 可能很多人会说,大公司都已经非常成熟了,一个萝卜一个坑,如果你的上级不晋升或者离职,那你永远不会成为那个上级,但这是对那些有多年经验的“老人”适用的。 对刚毕业的大学生来说,大公司有各种各样的牛人,无论是产品,技术还是运营,在他们的带领和指导下,你的工作能力都能得到很好的提升。 你去做一个用户上亿的产品,你遇到的问题,对产品和用户的理解,以及对整个行业的把握,跟你去做一个用户几万几十万的产品,是完全不同的。 同时,在大公司会有多种多样的晋升通道,比如网络、阿里设计的专家岗和管理岗,当你到了一定的级别之后,你可以选择你作为一个管理者,去带领团队;也可以作为一个专家或者架构师,去专心的研究技术和产品。 而小公司虽然看上去发展空间很大,但一来是领导都在忙自己的事情,很少有精力和时间去带你,二来是小公司猝死几率太高,最近几年,一家公司做个一年半年就死掉的案例真是非常多见。 5、开阔视野,心理爽。 在大公司,你往往能发现自己部门里有各种你仰慕已久的大牛,也有各种清华北大,哈佛斯坦福的学霸,久而久之,你会发现,能跟这些大牛平起平坐的你本人是多么的牛逼。 同时,当你有了一定的经验之后,会有各种各样的知识分享平台会邀请你去讲课,去给更年轻的学弟学妹传道授业解惑,你一定会有飘飘然的感觉,感觉自己是一个对社会有用的人才。 而这个,是一般的小公司所不能满足,君不见现在各种知识分享平台充斥着各种前网络运营经理(没错,正是在下),前阿里产品专家和前腾讯高级产品经理这样的大公司员工么?所以,奉劝各位即将毕业的大学生们,如果有机会,第一份工作最好能去大公司,并待上一段时间,如果要把这段时间加上一个期限的话,我希望是――至少三年。 至于怎么去大公司,那就是下一期的问题了。 作者介绍:申伟,互联网职业咨询师,在行行家。 前网络高级运营师,前脉脉高级运营经理。 11年互联网工作经验,网络离职员工组织“百老汇”首席联络官。 有关于互联网求职,跳槽的咨询和疑问请下载“在行”APP搜索申伟购买相应话题。

美国新一代载人登月航天器有什么型号?

根据最新的航天计划,美国将在未来时间里投资上千亿美元,研制新一代载人探测航天器,不仅要取代现有航天飞机的全部功能,能够将航天员送到近地轨道,完成国际空间站的组装工作,而且还要将航天员送上月球轨道并安全返回,今后还要将航天员送到火星上。 为此,美国航空航天局开展了“空间探索新构想初始概念”项目预研,认为新一代载人探测航天器最合理的设计是采用太空舱式飞船结构,而非机翼式结构。 整体设计应采用传统火箭,可以保证更安全。 采用模块化功能设计,航天器根据需要既可以载人,也可以载货,并遵循人货分离的基本原则,分别把人员和货物送入轨道,而不是像航天飞机那样,将入与货物一起送人太空。 美国航空航天局已决定,未来新一代载人探测航天器将有两种型号:一种用于国际空间站运输,运载能力为25吨;另一种用于月球探索计划,运载能力为35吨。 经过改进后航天器可进一步提升运载能力,用于未来火星探测任务。 新的载人探测航天器和“阿波罗号”飞船很相似,但载人空间大了1倍,质量约12吨,能将4名航天员送往月球,每年最多可飞行6次;此外,也可作为国际空间站送接航天员或运送物资的货船。 运载火箭将沿用现有航天飞机的主发动机和固体燃料助推器,但布局改为上下两级串联结构,一级采用固体火箭助推器,二级为低温火箭。 新的登月之旅中,推进力强大的运载火箭将把登月着陆器和载货舱送上太空,之后另一枚较小的火箭再把载人航天器送上太空,分别进入地球轨道后,载人飞行器将与登月着陆器和载货舱对接成为一体,然后由第二级火箭将它们一同送往月球。 进入月球轨道后,登月着陆器将与航天器脱离并降落到月球表面,航天器则仍留在月球轨道上。 与“阿波罗”登月行动不同的是,4名航天员可以全部乘坐着陆器降落到月球上,而不必有人留守在航天器上。 航天员在进行大约7天的月球勘探之后,再次乘登月着陆器的返回舱从月球表面发射升空,回到月球轨道,与等候在那里的航天器对接。 宇航员进入飞行器中,然后抛弃着陆器返回舱,飞回地球。 在进入地球大气层后,航天器释放降落伞,启动制动火箭系统和气囊进行软着陆。

  • 声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
  • 本文地址:https://srwj168.com.cn/keji312/4249.html
热问 应如何缴税 与父母置换房屋
6座布局