AI春晚拉开序幕！智源大模型集体爆发了又一届

机器之心报道

机器之心编辑部

一年一度的国内「AI 春晚」—— 智源大会又一次拉开了序幕。

20+ 个不同主题的论坛、百场精彩报告让现场和线上的观众目不暇接，切实感受到了当下 AI 尤其是大模型对内容创作、生产办公、机器人、生物医疗等千行百业的深度赋能。

在这场「AI 内行顶级盛会」上，不仅有 Llama、Sora 等大模型及 DiT 架构的作者参与交流，详解他们的研究成果；还有百度、零一万物、百川智能、智谱 AI、月之暗面、面壁智能等耳熟能详的国内大模型公司的 CEO 与 CTO 展开对话，探讨人工智能关键技术路径以及通往 AGI 之路。

同时，在 AI 安全这个愈加受到全球关注的课题上，包括图灵奖得主姚期智、加州大学伯克利分校教授 Stuart Russell、谷歌 DeepMind 前沿安全与治理主任 Allan Dafoe 等一众国内外大咖嘉宾分享洞见，为人工智能接下来的健康、可持续发展建言献策。

自 2019 年 10 月举办首届以来，智源大会已经来到第六个年头。每一年，智源研究院都会在大会上发布诸多重磅进展。

在今天的智源大会上，我们又一次看到了多项「全球首个」研究进展：

智源研究院带来了持续迭代后覆盖面更全、性能更强大、影响更深远的 大模型全家桶，包括语言大模型、多模态大模型、具身大模型、生物计算大模型 。新技术的亮相预示着智源始终走在大模型发展前列，引领大模型研究方向。

智源研究院院长王仲远博士。

训练万亿级大模型仅需四个月和 112 台 A800

在过去一年，Scaling Law 被研究者们反复提及和议论。这个定律揭示了一点：随着模型参数、训练数据量和计算量的持续增加，模型的性能通常会持续提升。正因此，大模型的参数每年都在指数级提升。

科学家们普遍认为人类大脑参数在万亿到 1000 万亿之间，而大模型参数与人类大脑参数的差距在不断缩小，从过去几年的相差 100 万倍到 1000 倍再到最近的仅差 100 倍。按照这个速度发展，未来几年，大模型参数很可能就会赶上或者超过人类大脑的参数，AGI 也会更快到来。

但人们同时意识到，算力的短缺将成为一大挑战。

为此， 智源研究院与中国电信人工智能研究院（TeleAI）基于模型生长和损失预测等技术联合研发了全球首个低碳单体稠密万亿语言模型「Tele-FLM-1T」 。该模型与百亿级的 52B 版本、千亿级的 102B 版本共同构成 Tele-FLM 系列，团队用 4 个月完成了 3 个模型总计 2.3T tokens 的训练，训练全程做到了零调整零重试，算力能效高且模型收敛性和稳定性好。

作为一个万亿级参数的模型，Tele-FLM-1T 仅需业界普通训练方案 9% 的算力资源和 112 台 A800 服务器。

Tele-FLM 系列模型在基础性能方面取得多项突破：BPB 显示，英文能力上，Tele-FLM-52B 接近 Llama3-70B，优于 Llama2-70B 和 Llama3-8B；中文能力上，Tele-FLM-52B 为开源最强，优于 Llama3-70B 和 Qwen1.5-72B。在对话模型性能方面：AlignBench 评测显示，Tele-FLM-Chat（52B）已经达到 GPT-4 中文语言能力的 96%，总体能力达到 GPT-4 的 80%。

大会上，智源研究院院长王仲远博士宣布，TeleFLM 系列中，52B 版本已经全面开源，包括所有的核心技术（生长技术、最优超参预测）、训练细节（loss 曲线、最优超参、数据配比和 Grad Norm 等），Tele-FLM-1T 版本也即将开源。

对于 AI 研究者们来说，同样关心的还有模型的幻觉问题。针对这个问题，智源研究院推出了 通用语义向量模型 BGE（BAAI General Embedding） 。

自 2023 年 8 月发布以来，智源团队陆续发布了中英文模型 BGE v1.0、v1.5 以及多语言模型 BGE-M3。截至目前，BGE 系列模型全球下载量超过 1500 万，位居国内开源 AI 模型首位。BGE-M3 模型一度跃居 Hugging Face 热门模型前三，其所属代码仓库 FlagEmbedding 位居 Github 热门项目前 10；BGE-M3 所带来的全新的通用检索模式也相继被 Milvus、Vespa 等主流向量数据库集成。

同时，智源再度推出新一代检索排序模型 BGE Re-Ranker v2.0，同时扩展了向量模型 BGE 的「文本 + 图片」混合检索能力。

模型地址：https://github.com/FlagOpen/FlagEmbedding

打造原生多模态世界模型

8B 小模型可达 GPT-4o 87% 性能

如今，行业主流多模态大模型多为针对不同任务而训练的专用模型，例如文生图的 Stable Diffusion，文生视频的 Sora，图生文的 GPT-4V，每类模型都有对应的架构和方法。

这就导致现有模型的能力多为单一分散的能力组合，而非原生的统一能力，比如 Sora 目前就做不到对图像和视频的理解。此次， 智源研究院推出了 Emu3 原生多模态世界模型，让我们看到了不一样的选择 。

值得关注的是，在技术路线上，智源研究院没有像行业其他玩家一样选择因 Sora 而爆火的 DiT 路线。Emu3 采用了智源自研的多模态自回归技术路径，在图像、视频、文字上联合训练，使模型具备真正原生的多模态能力，实现了图像、视频、文字的统一输入和输出。

简单来说，Emu3 从训练开始就是为实现统一的多模态生成和理解而设计的。这两种能力的融合使模型不仅能够生成高质量的图片和视频，还可以续写视频、理解物理世界。

图像、视频、文字等多模态以及生成、理解能力的多方面统一，让我们见识到了下一代更强大多模态大模型的雏形。

视频生成能力展示。

图像及视频理解能力展示。

目前，Emu3 正在持续训练中，并将延续以往的开源策略，在经过安全评估之后会逐步开源。我们可以期待一波了。

当然了，多模态领域也少不了算力需求更少、部署更方便的「小」模型。此次为了适应模型在端侧的应用， 智源研究院推出了轻量级图文多模态模型 Bunny 系列，包括 3B、4B、8B 版本 。

该模型系列采用灵活架构，支持多种视觉编码器和语言基座模型。多个榜单的综合结果表明，Bunny-8B 的多模态能力可以达到 GPT-4o 性能的 87%。更难得可贵的是，Bunny 模型系列做到了真正的开源，模型、数据和代码全部开放给大家。

开源地址：https://github.com/BAAI-DCAI/Bunny

大模型具象化

用具身智能解决物理世界更多样任务

当前，赋予大模型「身体」，使其更具象地感知、理解并执行物理世界多样性任务成为了 AI 领域重要的发展趋势之一。这也是具身智能大模型兴起并引领 AI 下一个浪潮的重要原因。

过去一年，智源研究院在具身智能大模型领域取得了多项世界级突破性成果，涉及到了 通用泛化抓取技术、具身操作 VLA（视觉 - 语言 - 动作）大模型、具身导航 VLA 大模型和自研机器人硬件等方向 。

首先在具身智能通用抓取能力方面，智源研究院提出的 通用抓取技术 ASGrasp 率先突破了 95% 的真机实验成功率，实现全球领先的商业级动作执行水平 。其中使用到的大规模高质量仿真数据覆盖了千万级场景，执行了十亿次抓取动作。相关论文也被机器人领域顶会 ICRA 2024 收录。

如下图所示，采用 ASGrasp 技术的机器人能够轻松应对复杂光线透射、反射的情况，并准确感知透明、高反光物体的形状和姿态，预测出高成功率的抓取位姿，轻松完成抓取任务。

其次在分级具身大模型系统方面，智源研究院研发布了 两个「专模专用，各司其职」的分级大模型系统 。

第一个是能够 从失败中重思考、再尝试的铰接物体操作大模型系统 SAGE 。据介绍，该系统有效结合了三维视觉小模型对空间几何的精确感知能力和通用图文大模型的通用物体操作知识，使大模型驱动的机器人能够在任务执行失败时能够重新思考并再次尝试新的交互方式，实现了传统机器人技术无法企及的智能性和鲁棒性。

第二个是 全球首个开放指令六自由度拿取放置的大模型系统 Open6DOR 。该系统不仅像谷歌 RT 系列大模型（只能实现三自由度）一样按照自然语言指令中的要求将物体放到指定位置，还能够进一步对物体的位置和姿态进行精细化控制。该项技术极大地提高了具身操作大模型的商业应用范围和价值。

除了简单的抓取任务之外，具身机器人有时还需要行走起来。在面向技术终局的端到端具身大模型层面，智源研究院发布了 全球首个端到端基于视频的多模态具身导航大模型 NaVid 。该模型可以直接将机器人视角的视频和用户的自然语言指令作为输入，端到端地输出机器人的移动控制信号。

NaVid 与以往机器人导航技术的区别在于：既无需建图，也不依赖于深度信息和里程计信息等其它传感器信号，而是完全依靠机器人摄像头采集的单视角 RGB 视频流。

不仅如此，NaVid 在只利用合成导航数据进行训练的情况下，通过 Sim2Real 的方式，实现在真实世界室内场景甚至是室外场景的 zero-shot 真机泛化。

在具身智能落地的另一个重要的医疗场景，智源研究院联合领视智远研发了 全球首个智能心脏超声机器人，实现了全球首例真人身上的自主心脏超声扫查 ，对于解决心脏 B 超医生紧缺、诊断准确率不高、标准化欠缺、效率低等难题具有积极作用。

据介绍，基于超声影像和机械臂的受力信息，智能心脏超声机器人可在高速动态环境下快速计算，提取心脏特征，实现了相当于自动驾驶 L2、 L3 级的智能化水平。

临床验证结果显示，准确性上，智能心脏超声机器人能和高年资医生保持一致；稳定性上，智能心脏超声机器人更高；舒适性上，智能超声机器人的力度可以控制在 4 牛以内，舒适度更高；效率上，智能超声机器人实验机可与人类医生持平。

而为了让具身智能机器人能够通过通用计算机控制， 智源研究院提出了通用计算机控制框架 Cradle，让智能体像人一样看屏幕，通过鼠标、键盘完成计算机上的所有任务 。

Cradle 由信息收集、自我反思、任务推断、技能管理、行动计划以及记忆模块等 6 个模块组成，可进行「反思过去，总结现在，规划未来」的强大决策推理。不同于业界其他方法，Cradle 不依赖任何内部 API 实现了通用性。

未来，智源研究院将依托多模态大模型技术优势资源，投入更多人力，并联合北大、清华、中科院等高校院所，银河通用、加速进化等产业链上下游企业，建设具身智能创新平台，重点开展数据、模型、场景验证等研究，打造具身智能创新生态。

大模型如何变革生物计算？

伴随着大模型能力的持续提升，人工智能开始在更多科学领域显现出价值。

全世界的生物计算科学家们都希望借助大模型实现「微观世界」的研究突破。以药物研发为例，从新药研发到上市，通常要耗费 10 年以上的时间以及 10 亿美金以上的投入，业内称之为「双十定律」。其中 30% 到 40% 的投入是花在药物设计环节的，而 AI 有助于加速化合物的筛选、大分子结构的建模及预测等工作。

有了大模型，我们能否更好地解决生命分子的理解与生成问题呢？

在本次大会上，智源研究院重磅发布了 全原子生物分子模型 OpenComplex 2，能有效预测蛋白质、RNA、DNA、糖类、小分子等复合物 。它不仅可以预测大分子的稳定结构，还初步具备预测分子多构型以及折叠过程的能力。

在生物分子结构预测领域国际竞赛 CAMEO（Continous Automated Model EvaluatiOn）中，OpenComplex 已连续两年稳居第一，并获得了 CASP（Critical Assessment of Techniques for Protein Structure Prediction）15 的 RNA 自动化赛道预测冠军。OpenComplex 在精度和宏观结构方面的表现都优于同类竞品，比如 AlphaFold，结果相似且没有噪音。

OpenComplex 平台建立了将「蛋白质结构预测」「RNA 结构预测」和「蛋白质 - RNA 复合物结构预测」三类任务统一的端到端生物大分子三维结构预测深度学习框架。上述三类任务的推断和训练在该统一的「编码器 - 解码器」框架中完成，其中编码器支持多重序列比对（MSA）和语言模型（LM）两种编码策略。

项目地址：https://github.com/baaihealth/OpenComplex

此外，智源研究院还构建了 全球首个实时孪生心脏计算模型 ，可实现高精度的前提下生物时间 / 仿真时间比小于 1，位于国际领先水平。

基于这一模型，智源将创新性地采用物理 - 数据双驱动模型，融合第一性原理和人工智能方法，从亚细胞级、细胞级、器官级、躯干级仿真出一个「透明心脏」，且能根据患者的临床数据，构建出反映患者的个性化生理病理的孪生心脏，从而进行药物筛选、治疗方案优化、术前规划等临床应用。

与此同时，智源研究院已与北大第一医院、安贞医院、长征医院、朝阳医院进行合作，将相关技术应用在临床实践之中。

五大版图布局升级

FlagOpen 大模型开源技术基座 2.0 来了

所有的研究成果，都要依赖于一个非常强大的基座。

去年，为帮助全球开发者一站式启动大模型开发和研究工作，智源研究院推出了面向异构芯片、支持多种框架的大模型全栈开源技术基座 FlagOpen 1.0。

今年，在 1.0 的基础上， 智源研究院推出了 FlagOpen 2.0，进一步完善模型、数据、算法、评测、系统五大版图布局，旨在打造大模型时代的 Linux 。

开源地址：https://github.com/FlagOpen

FlagOpen 2.0 可支持多种芯片和多种深度学习框架。目前，开源模型全球总下载量超 4755 万次，累计开源数据集 57 个，下载量近 9 万次，开源项目代码下载量超 51 万次。

数据层面，智源研究院发布了首个千万级高质量开源指令微调数据集开源项目 InfinityInstruct，首期发布经过验证的 300 万条中英文指令数据，近期将完成千万条指令数据的开源。当前开源的 300 万条指令数据集已经显示出超越 Mistral、Openhermes 等的 SFT 数据能力。在提升到千万级数据量级后，基座模型基于该指令微调数据集进行训练，对话模型能力有望达到 GPT-4 水平。

此外，智源研究院还构建并开源了 IndustryCorpus 中英文多行业数据集，包含总计 3.4TB 预训练数据集，其中中文 1TB，英文 2.4TB，覆盖 18 类行业，分类准确率达到 80%，未来计划增加到 30 类。

行业预训练数据集：https://data.baai.ac.cn/details/BAAI-IndustryCorpus

评测层面，FlagEval 大模型评估自 2023 年发布以来，已从主要面向语言模型扩展到视频、语音、多模态模型，实现多领域全覆盖，采用主观客观结合以及开卷闭卷综合的考察方式，首次联合权威教育部门开展大模型 K12 学科测验，与中国传媒大学合作共建文生视频模型主观评价体系。

在系统软件层面，本次智源大会也宣布了几项重要进展：

FlagScale 首次在异构集群上实现不同厂商跨节点 RDMA 直连和多种并行策略的高效混合训练，成为业界首个在多元异构 AI 芯片上同时支持纵向和横向扩展两阶段增长模式的训练框架。

智源研究院推出了面向大模型的开源 Triton 算子库，包括首个通用算子库 FlagGems 和大模型专用算子库 FlagAttention，可基于统一开源编程语言，大幅提升算子开发效率，同时，面向多元芯片共享算子库。

为满足不断攀升的大模型训练和推理计算需求，应对大规模 AI 系统和平台面临的集群内或集群间异构计算、高速互联、弹性稳定的技术挑战，智源研究院推出了面向大模型、支持多种异构算力的智算集群软件栈 FlagOS。

FlagOS 融合了智源长期深耕的面向多元 AI 芯片的关键技术，包括异构算力智能调度管理平台九鼎、支持多元 AI 异构算力的并行训推框架 FlagScale、支持多种 AI 芯片架构的高性能算子库 FlagAttention 和 FlagGems，集群诊断工具 FlagDiagnose 和 AI 芯片评测工具 FlagPerf，目前已支持了超过 50 个团队的大模型研发，支持 8 种芯片，管理超过 4600 个 AI 加速卡，稳定运行 20 个月，SLA 超过 99.5%，帮助用户实现高效稳定的集群管理、资源优化、大模型研发。

作为一家不以营利为目标的科研机构，智源研究院以往已经做的、现在正在做的以及未来要做的始终是技术突破、探索和创新。这也是智源研究院与其他大模型玩家的本质区别。

从 2020 年开始，智源研究院就投身于大模型技术研发，迄今已经形成了涵盖语言、多模态、具身、生物计算大模型在内的体系。

如果将 2023 年之前称为「弱人工智能」时代，那么 2023 年之后，我们将逐渐走进「通用人工智能」时代。在未来很长一段时间，大模型能力的强弱很大程度上将左右这一进程推进的速度。

在王仲远看来，现阶段语言大模型的发展已经具备了通用人工智能非常核心的理解和推理能力，并且形成了一条以语言大模型为核心对齐和映射其他模态的技术路线，从而让模型具备了初步的多模态理解和生成能力。但这并不是让人工智能感知、理解物理世界的终极技术路线，而应该采取统一模型的范式，实现多模态的输入和输出，让模型具备原生的多模态扩展能力，向世界模型演进。

此次，Emu3 原生多模态世界模型正是智源研究院在原生统一大模型技术路线上的牛刀初试。此外，通过在具身机器人、生物医疗等更多应用场景的落地，加之学术生态、产业生态的不断深化，大模型的能力会持续得到拓展与增强。

同时，智源研究院凭借对前沿 AI 和大模型技术的探索受到了广泛的业界认可。月之暗面 CEO 杨植麟表示，智源研究院至少是亚洲地区最早且真正投入去做大模型的机构，这是非常难得、非常领先的想法。

百川智能 CEO 王小川提到，大模型的思潮和很多技术都是从智源研究院发展而来的。如今智源拥有非常好的定位，既有技术高度，又承担了智库的角色，在生态层面能够帮助大家更加快速健康地发展。

智谱 AI CEO 张鹏称赞智源研究院真的是国内甚至国际人工智能领域的一面旗帜，并非常希望双方能在学术研究、落地应用、公共政策等多方面继续保持合作。

面壁智能 CEO 李大海则希望大家在智源研究院的撮合和带领下，搭建一个更好的平台，携手把需要做好的事情一起做好。

未来，智源研究院将继续坚持原始技术创新，做前沿方向的路线探索，广泛链接学术生态，赋能产业发展。可以预见，在通用人工智能最终到来之前，智源研究院将扮演无可替代的重要角色。

达摩院发布2022十大科技趋势：AIforScience催生科研新范式

《达摩院2022十大科技趋势》采用“定量发散，定性收敛”的分析方法，整个分析流程分为两部分：首先，达摩院对159个领域近三年770万篇公开论文、8.5万份专利进行深入分析，挖掘热点领域及重点技术突破。随后，通过与近100位科学家的深度访谈，提出了2022年可能变为现实的十大科技趋势，涵盖人工智能、芯片、计算和通信等领域。具体而言，这十大科技趋势包括：AI for Science、大小模型协同进化、硅光芯片、绿色能源AI、柔性感知机器人、高精度医疗导航、全域隐私计算、星地计算、云网端融合、XR互联网。达摩院认为，计算机科学改变科研的路径是从下游逐渐走向上游。起初，计算机主要用来做实验数据的分析与归纳。后来，科学计算改变了科学实验的方式，人工智能结合高性能计算，在实验成本与难度较高的领域开始用计算机进行实验的模拟，验证科学家的假设，加速科研成果的产出。近年，人工智能被证明能做科学规律发现，不仅在应用科学领域，也能在基础科学领域发挥作用。达摩院预测，在未来三年内，人工智能技术在应用科学中将得到普遍应用，在部分基础科学中开始成为研究工具。阿里达摩院城市大脑实验室负责人华先胜表示，用AI去助力科研主要基于数据和计算这两点，在数据和算力的基础上形成AI能力。对于从业者而言，AI for Science需要AI专家要去了解科学问题，需要科学家要去了解AI的原理。谷歌的BERT、Open AI的GPT-3、智源的悟道、达摩院的M6等大规模预训练模型取得了重要进展，大模型的性能有了飞跃性提升，为下游的AI模型提供了发展的基础。然而，大模型训练对资源消耗过大，参数数量增加所带来的性能提升与消耗提升不成比例，让大模型的效率受到挑战。阿里达摩院智能计算实验室科学家杨红霞表示，预训练大模型还有亟待突破的几个课题。达摩院认为，大模型的参数规模发展将进入冷静期，大模型与相关联的小模型协同将是未来的发展方向。清华大学计算机系教授，北京智源人工智能研究院学术副院长唐杰表示，大模型的发展并将深入，在认知智能方面，模型参数不排除进一步增加的可能，但参数竞赛本身不是目的，而是要探究进一步性能提升的可能性。达摩院预测，在未来三年内，在个别领域将以大规模预训练模型为基础，对协同进化的智能系统进行试点探索。在未来的五年内，协同进化的智能系统将成为体系标准，让全社会能够容易地获取并贡献智能系统的能力，往通用人工智能再迈进一大步。电子芯片发展逼近摩尔定律极限，集成技术进步趋于饱和，高性能计算对数据吞吐要求不断增长，亟需技术突破。光子芯片不同于电子芯片，技术上另辟蹊径，用光子代替电子进行信息传输，可以承载更多的信息和传输更远的距离。光子彼此间的干扰少、提供相较于电子芯片高两个数量级的计算密度与低两个数量级的能耗。相较于量子芯片，光子芯片不需要改变二进制的架构，能够延续当前的计算机体系。光子芯片需要与成熟的电子芯片技术融合，运用电子芯片先进的制造工艺及模块化技术，结合光子和电子优势的硅光技术将是未来的主流形态。北京大学教授，上海光机所特聘首席研究员周治平表示，达摩院选择“硅光芯片”作为2022年10大科技趋势之一，印证了该技术在信息通信领域的巨大应用价值。达摩院预测，光电融合是未来芯片的发展趋势，硅光子和硅电子芯片取长补短，充分发挥二者优势，促使算力的持续提升。未来三年，硅光芯片将支撑大型数据中心的高速信息传输；未来五到十年，以硅光芯片为基础的光计算将逐步取代电子芯片的部分计算场景。绿色能源的大规模开发和利用已经成为当今世界能源发展的主要方向。在高比例绿色能源并网的趋势下，传统电力系统难以应对绿色能源在大风、暴雨、雷电等天气下发电功率的不确定性，以及复杂故障及时响应的应对能力。人工智能与能源电力的深度融合，将推动大规模新能源发电、并网、输送、消纳和安全运行，完成对能源系统的升级改造。中国电科院首席系统架构师周二专认为，新型电力系统要实现智能调控、运行推演将离不开AI技术，在AI技术的支撑下构建多个物理电网和IT应用程序交互的数字孪生体，每个数字孪生体解决某一个场景或某一个方面的电网运行问题。达摩院预测，在未来三年内，人工智能技术将帮助电力系统实现大规模绿能消纳，能源供给在时间和空间维度上能够互联互济，网源协调发展，弹性调度，实现电力系统的安全、高效、稳定运行。机器人是技术的集大成者，在过去硬件、网络、人工智能、云计算的融合发展下，技术成熟度有了飞跃式地进展，机器人朝向多任务、自适应、协同化的路线发展。柔性机器人是重要的突破代表，具有柔软灵活、可编程、可伸缩等特征，结合柔性电子、力感知与控制等技术，可适应多种工作环境，并在不同任务中进行调节。近年柔性机器人结合人工智能技术，使得机器人具备感知能力，提升了通用性与自主性，降低对预编程的依赖。柔性感知机器人增加了对环境的感知能力(包含力、视觉、声音等)，对任务的迁移能力增强，不再像传统机器人需要穷举可能性，并且可执行依赖感知的任务(如医疗手术)，拓展机器人的适用场景。另一个优势是在任务中的自适应能力，面向突发变化能够及时反应，准确地完成任务并避免问题发生。达摩院预测，未来五年内，柔性机器人将充分结合深度学习带来的智能感知能力，能面向广泛场景，逐步替代传统工业机器人，成为产线上的主力设备。同时在服务机器人领域实现商业化，在场景、体验、成本方面具备优势，开始规模化应用。基于地面网络和计算的数字化服务局限在人口密集区域，深空、海洋、沙漠等无人区尚是服务的空白地带。高低轨卫星通信和地面移动通信将无缝连接，形成空天地海一体化立体网络。由于算随网动，星地计算将集成卫星系统、空中网络、地面通信和云计算，成为一种新兴的计算架构，扩展数字化服务的空间。达摩院预测，在未来三年内，低轨卫星数量会迎来爆发式增长，与高轨卫星共同组成卫星互联网。在未来五年，卫星互联网与地面网络将无缝结合形成天地一体的泛在互联网，卫星及其地面系统成为新型计算节点，在各类数字化场景中发挥作用。新型网络技术发展将推动云计算走向云网端融合的新计算体系，并实现云网端的专业分工：云将作为脑，负责集中计算与全局数据处理；网络作为连接，将多种网络形态通过云融合，形成低延时、广覆盖的一张网；端作为交互界面，呈现多元形态，可提供轻薄、长效、沉浸式的极致体验。云网端融合将促进高精度工业仿真、实时工业质检、虚实融合空间等新型应用诞生。达摩院预测，在未来两年内，将有大量的应用场景在云网端融合的体系运行，伴随着更多依云而生的新型设备，带来更极致、更丰富地用户体验。随着端云协同计算、网络通信、数字孪生等技术发展，以沉浸式体验为核心的XR（未来虚实融合）互联网将迎爆发期。眼镜有望成为新的人机交互界面，推动形成有别于平面互联网的XR互联网，催生从元器件、设备、操作系统到应用的新产业生态。 XR互联网将重塑数字应用形态，变革娱乐、社交、工作、购物、教育、医疗等场景交互方式。达摩院预测，未来三年内会产生新一代的XR眼镜，融合AR与VR的技术，利用端云协同计算、光学、透视等技术将使得外形与重量接近于普通眼镜，XR眼镜成为互联网的关键入口，得到大范围普及。

AI绘画火了！AIGC元年开启下一个万亿赛道即将爆发？

AI绘画，成为了AIGC出圈的第一个落地产品。

01、AI绘画爆火

幕后开发公司成新晋AI独角兽

从9月份一幅名为《太空歌剧院》的AI绘画作品获得了一场艺术比赛的金奖，到AI绘画小程序的爆火，AI绘画完成了从出圈到社交裂变的过程。

根据“意间AI绘画”公布的数据，其小程序平台自2022年9月30日上线到2022年11月12日，用户由0增长到了117万人，其中，11月11日单日用户增加65.7万人。

意间AI绘画是由上海亘聪信息科技有限公司发布的一款AI绘画创作平台，团队来自英伟达、阿里巴巴等企业，专注于模型研究、算力优化等人工智能方向。

在AI绘画小程序中，用户只要输入关键词或是上传一张图片，不到一分钟时间，便可以生成一张绘画图片。

随着小程序的爆火，短视频平台抖音也迅速上线了AI绘画特效，用户上传照片或点击屏幕，只需几秒钟时间便可以生成二次元动漫风格的图片。

抖音平台数据显示，截至12月6日，该特效已经超2428.4万人使用，并迅速飙升至特效潮流榜TOP1。

其实早在2022年年初，AI绘画便在社交平台上引起过小范围的狂欢，但由于成本较高，推广范围也因此受到了限制。直到海外公司StableDiffusion开源后，行业获得了关键性技术的突破，许多基于StableDiffusion模型的应用纷纷入局。

目前，市场上的主流AI绘画模型包括：Google的DiscoDiffusion，OpenAI的DALL-E2，Meta的Make-A-Scene，以及StabilityAI的StableDiffusion。

其中，Diffusion为去噪扩散模型，可以说是当前最前沿的技术。其工作原理是获取图像数据，并对图像逐步施加噪点，直至图像被破坏变成完全的噪点，然后再逆向学习从全噪点还原为原始图像的过程。从AI的角度来看，它看到的先是一幅布满噪点的画面，再将画面一点点变清晰，最后成为一副画作。

值得注意的是，StableDiffusion为开源代码，而OpenAI和Google目前暂没有开放自己的人工智能模型。

公开资料显示，StableDiffusion开源模型背后是一家成立时间仅有两年多的初创公司——StabilityAI.其首席执行官EmadMostaque毕业于牛津大学，获数学和计算机科学硕士学位，此前曾在多家对冲基金担任分析师。

今年10月份，StabilityAI宣布获得1.01亿美元融资，领投公司为以支持开源著称的Coatue、Lightspeed以及OShaughnessyVentures.市场估算，此轮融资后，StabilityAI的估值已达10亿美元，成为新晋独角兽。

StabilityAI表示，所筹资金将用于开发图像、语言、视频、音频和3D等多模态开源模型。此外，这笔资金还将用于吸纳更多的人才，预计明年公司员工将从100人增加到约300人。

浙商证券认为，AI绘画是AIGC重要的应用分支。近两年包含扩散模型在内的关键技术取得突破，技术可用性显著提高，技术转化为生产力的契机产生。随着StableDiffusion等应用破圈，用户接受度和参与度持续提高，适用行业不断拓展，未来B端、AI绘画+3D的商业化潜力值得期待。

02、元年开启

产业链仍有诸多待开发蓝海领域

所谓AIGC(AIGeneratedContent)，即基于人工智能技术自动生成内容的新型生产范式。其技术主要涉及两个方面：自然语言处理NLP和AIGC生成算法。其中，自然语言处理是实现人与计算机之间如何通过自然语言进行交互的手段。

总的来说，“AI+新型内容生成方式”，是AIGC的两大核心关键词。

从互联网内容生产方式的发展历程来看，大致经历了PGC(专家生成内容)——UGC(用户生成内容)——AIGC(AI生产内容)三大阶段。 AIGC作为全新的内容生成方式，在创意、表现力、创作速度、迭代、传播等方面都具有显著的技术优势。

最初，AIGC可生成的内容形式以文字为主，经过2022年指数级的发展增速，目前，除了AI绘图，AIGC技术可生成的内容形式已经拓展到了包括文宇、图像、视频、语音、代码、机器人动作等多种内容形式。

2022年也因此被称为“AIGC元年”。红杉资本9月份发布的一篇文章提到，生成式AI，让机器开始大规模涉足知识类和创造性工作，这涉及数十亿人的工作，未来预计能够产生数万亿美元的经济价值。

而AI绘画作为AIGC第一个破圈的落地应用，有望达到五六百亿规模。国泰君安分析师预测，未来五年，或将有10%-30%的图片内容由AI参与生成，相应将有600亿以上的市场规模。

根据中关村大数据产业联盟此前发布的《中国AI数字商业展望2021-2025》报告预计，至2025年，中国AI数字商业核心支柱产业链规模将达到1853亿元，未来五年的复合增长率约为57.7%。

就AIGC而言，其产业链涉及到硬件、NLP、算法算力、应用、数据提供与处理等多个环节，而当前的产业布局基本集中在算法和应用开发环节，这也意味着在AIGC产业链上下游还有诸多可开发的蓝海领域。

03、商业化尚需时日

不过，随着AIGC的爆火，争议也随之而来。

总体来看，劳动力替代、版权争议、技术缺陷、政策监管，是AIGC目前面临的主要问题。

网络创始人、董事长兼首席执行官李彦宏在今年网络世界大会上提到，AIGC将迎来三个发展阶段：第一阶段为“助手阶段”，AIGC辅助人类进行内容生产；第二阶段为“协作阶段”，AIGC以虚实并存的虚拟人形态出现，形成人机共生局面；第三阶段为“原创阶段”，AIGC将独立完成内容创作。

不过，相对于“抢饭碗”的担忧，业内人士更愿意将AIGC视作“文科生的工业革命”，更大的意义在于“解放人类”而非“替代人类”——替代重复、基础的低端创作，提升效率是最直接的影响。

但另一方面，在AIGC发展的初期阶段，必然需要大量的模型学习，也必然经历从模仿到创新的过程。目前，对于AI生成的内容著作权属于谁仍未有明晰的界定。

智源研究院运营副院长刘江在《亮见》中提到，AI版权问题的复杂性主要表现在两个方面：一是AI要基于数据进行创作，在数据基础上进行训练，但是数据的收集、使用、确权、商用等目前在法律上还很不清晰。二是从贡献来讲，需要有一个合适的利益分配机制，但现在还是缺乏的。因此，相关法律法规在未来需要不断进行完善，才能更好地推动AI行业进一步发展。

中国信通院今年发布的《人工智能生成内容(AIGC)白皮书》指出，随着AIGC应用的不断拓展，国绕公平、责任、安全的争议也日益增多，AIGC在技术算法、企业管理、政策监管方面仍然存在诸多困难和挑战。

04、国内市场“后来居上”

“伴随着技术的进步，AI将做从0到1真正有想象力的事。 ”华泰证券研究所认为，人脑的知识图谱有限，当PGC、UGC的生产潜力被逐步消耗，AI技术将弥补数字世界内容消耗与供给的缺口。

一个新赛道兴起，最先瞄准的总会是资本。

在激烈的海外市场中，已经跑出了成功商业化的案例。除了StabilityAI，主打文字生成的AIGC公司JasperAI此前也宣布完成了1.25亿美元的A轮融资，估值达到15亿美元。

此外，OpenAI已实现千万美元量级的收入；StabilityAI全渠道日活用户超1000万，DreamStudio上线的第一个月，收入就已达数百万美元；JasperAI2022年收入预计将超9000万美元??

相较于海外市场的“神仙打架”，国内创投圈要稍微慢一些。截至目前，国内可以公开查询到的已进入融资阶段的AI绘画初创公司，只有TIAMAT.其他同类型平台比如6pen、、大画家Domo、盗梦师等，均未进入融资阶段。

浙商证券认为，和国外类似，国内的AIGC参与主力分为了两类：一是相关行业内已有一定规模的公司，多为龙头；二是初创公司。

前者的代表为网络，8月发布了AI艺术和创意辅助平台文心一格，其使用的是网络自主研发的产业级知识增强大模型——文心大模型。后者的代表则为AI绘画大热产品——TIAMAT，TIAMAT背后为初创团队，成立于2021年，由上海科技大学孵化，一年内就积累了可观的社区用户和商业客户，已获得DCM数百万美元天使轮融资。

“参见互联网发展的历史，未来规模较大的公司很可能通过自研或者收购融合多种技术，提供更优的体验，打通不同场景，连接创作者、消费者、供应商等各方。 ”浙商证券认为，产业集中度将不断提升，AIGC也将集成进入元宇宙的复杂系统。

而在资本市场，11月中旬以来，投资者对于上市公司在AIGC方面的布局问题在集中涌现。

据全景路演数据，关于AIGC的投资者提问共100条，多集中于11月15日之后出现，主要集中在完美世界、中文在线、拓尔思、首都在线、科蓝软件等上市公司。

招商证券研报指出，相较海外，我国AIGC相关应用还处于早期阶段，目前我国AIGC相关标的主要有视觉中国、蓝色光标、中文在线、昆仑万维等。

其中，视觉中国拥有广泛数据集和图片素材，目前提供4亿张图片、3000万条视频和35万首音乐等可销售的各类素材，是全球最大的同类数宇版权内容平台之一。依托海量资源，更方便进行深度学习算法的训练和优化，在模型训练中具有独特优势，有望构筑AIGC竞争力。

蓝色光标在2020年发布了自主研发的全新智能营销产品销博特。 2021年，销博特全新上线了AI易稿模块，用户只需输入公司、产品、行业、标题四项关键内容即可一键生成新用草稿。

近期，蓝色光标进一步推出“创意画廊”，利用AIGC算法试生产不同风格的抽象画作，该模型的诞生标志着公司AIGC所涉领域进一步拓展，能力范围从原有AI写作拓展到AI绘画。

浙商证券提到，总的来看，对于AIGC投资，首先可以关注拥有相关应用产品和场景的公司；其次，AIGC+3D作为动态数字内容辅助创作工具，或可显著降低游戏、影视、VR/AR行业的制作成本，利好相关厂商；此外，AIGC和AI绘画依赖自然语言处理、计算机视觉和人工智能技术，可关注拥有相关技术储备的厂商。

五道口有个人工智能“橙房子”，逛完整个“AI”住了！

五道口成府路南侧

有座“橙房子”

十分引人注目

这就是

北京智源人工智能研究院的新家

（以下简称“智源”）

从最初的一间会议室

到现在的智源大厦

三年来

它交出了10张亮眼成绩单

其中最为引人瞩目的当属

智能模型 “悟道”

2021年3月和6月

智源相继发布

悟道1.0和悟道2.0

“悟道”大模型实现了

我国在超大规模智能模型技术方面的

自主可控及前沿引领

智源瞄向世界一流研究

希望推动顶尖人才、学术思想

发展政策、理论基础、企业创新

五大源头创新

关于未来

智源还有那些期许和目标

人工智能的发展将去向何方

本期特别邀请了刘江副院长

为我们解读

刘江

北京智源人工智能研究院副院长

Q：把“新家”搬到五道口，有没有什么特别的用意？

智源位于五道口的这个空间很珍贵，首先要感谢北京市、海淀区的大力支持。这里是中关村核心区域，毗邻清华、北大、中科院，汇聚了大量人才。

现在每周都有几场有关人工智能的活动在这里举办。我们希望能有更多的学者、科研人员以及工作室能更近距离地交流，这有利于以技术和科研的创新。心理上、地理上人才的高密度聚集，对于创新来说是一个非常重要的条件。

Q：未来，智源在人工智能领域有什么样的计划和布局？

我们认为未来人工智能领域将有几个比较重要的方向，第一个方向是大模型。用海量的数据和巨大的算力训练出来的大模型具有很强的通用性。它能做各种各样不同类型的题目，而且表现很好。

我们对于人工智能最终的想象是能创造出一个系统与人类的能力相当，所以第二个重要的方向就是“类脑” 。

第三个很重要的方向叫做科学智能。基础学科以前因为人力限制，许多研究是很难做到的，借助人工智能的力量，说不定能产生很多突破。

总的来说，人工智能有两个大方向，一个是对“智能”本身的理解，探索智能的机理到底是什么，这个层面上还有非常多可能性。另一个是在研究“智能”的漫长过程中，我们积累了许多能力，要把这些能力应用于各行各业，产生最大的社会价值。这就是我们所说的人工智能研究的“顶天立地”，顶天是要向科学技术的高峰攀登，立地是要做好科研转化，使之产业化。

靓丽的外表

硬核的内心

在宇宙中心呼唤“AI”的体验

你爱了吗？

达摩院发布2022十大科技趋势：AIforScience催生科研新范式

AI绘画火了！AIGC元年开启下一个万亿赛道即将爆发？

五道口有个人工智能“橙房子”，逛完整个“AI”住了！

相关文章