Scaling 但至今仍是提高大模型性能的重要方法 Laws虽被质疑清华教授唐杰

清华大学计算机系讲席教授、人工智能研究院基础模型研究中心主任唐杰

出品｜搜狐科技

作者｜郑松毅

2024年已过半，大模型之争热度不减，通往AGI的路究竟该怎么走？

近日，清华大学计算机系讲席教授、人工智能研究院基础模型研究中心主任唐杰分享了对大模型发展历程的看法，并对AGI未来发展提出了一些思考。

他强调，人工智能大模型已成为国际科技“必争之地”，实现国产全自研、自主可控的人工智能基础模型迫在眉睫。

“除了超大算力、数据、算法创新需求，大模型创新发展面临的挑战还包括：打造安全可信的软硬件系统，同时大模型的应用需求也更加动态多样，要求对大模型的不同层次进行深入研究。”

回顾大模型发展历程，唐杰认为可分为四个阶段：算法之战（2018-2020），模型之战（2020-2022），产业落地之战（2023），及AGI元年（2024）。

自2017年谷歌提出Transformer机器学习模型架构后，该架构迅速席卷了整个人工智能领域，成为自然语言处理等相关研究的主要方法。

2018至2020年是算法创新年，先后出现了基于Transformer的BERT、GPT/GPT-2/GPT-3、T5等基于大规模无标注数据自监督学习的大规模预训练算法。这些算法模型均在大数据支持下拥有较大规模模型参数，具备较强的通用能力，可完成多场景任务，显著降低学习成本、提高学习效率。

2020至2022年，迎来了模型之战。GPT-3（拥有1750亿参数）是这一战的起点，随后全球范围内掀起了一股大模型研究的热潮，谷歌、Meta等公司开始不断发布百亿到千亿的大型语言模型，开源大语言模型也开始受到关注。

唐杰指出，“国内一直缺少原创的开源千亿基座模型，更重要的是产学研各界对大模型的发展和产业化还没有形成共识，对于应该发展大模型还是转而发展小模型，大家还没有达成统一认识。”

2022年11月30日，ChatGPT正式发布，唤醒了所有人对大模型的认知。大模型的发展不再仅限于模型技术的发展和模型训练本身，更重要的是如何实现模型的产业化应用。大模型开始在各个领域开花结果，在金融、互联网和教育等众多行业落地。

随后，全国多个产业纷纷投身大模型：短期的做AI升级，原来用分类算法、小模型实现的开始用大模型替代；中期的开始研究自己的定制化大模型。于是各种大模型纷纷推出，一时间形成了“百模大战”的情形。仅此一年，据不完全统计，全国实现大模型初步应用的企业和部门有数千个。2023年也被称为大模型产业落地元年

时至今日，OpenAI在2024年初推出了文本到视频生成模型Sora，被认为是目前最好的视频生成模型，让大家看到了构建物理世界通用模型的可能路径。

唐杰分析，“OpenAI极有可能在2024年推出下一代模型GPT-5，也许会有全新的代号，无论如何比较肯定的是其认知能力将带来通用人工智能的再一次变革。其下一代模型在技术上可能解决目前ChatGPT中存在的事实性以及推理能力的缺陷，实现更精细的语义理解、多模态（文本、图像、语音、视频等）输入和输出，具备更强的个性化能力。”

“人工智能的发展会更多瞄向通用人工智能，实现AI的自我解释、自我评测和自我监督，构建超过人类水平的超级认知智能(super intelligence)，并且确保模型的表现符合人类的价值观和安全标准。”

谈及AGI研究面临的挑战，唐杰认为还有很多基础理论问题尚未得到根本解决。

很多人疑惑，未来AGI之路在哪里？

在他看来，这可能是所有做大模型研究的学者不断思考的事情。国内外前沿科技公司和科研机构基本上都形成了顶尖的大模型团队，这源于对创新型顶尖人才的汇聚，以及对基于大模型的AGI之路的执着和技术积累。

OpenAI曾经在看不到前景和没有明显效果的阶段(2018~2021年)，仍然坚定地投入大量人力和算力，这种长期的坚持和纯粹的创新精神是成功的必要条件。

AGI是否能够通过大模型的缩放定律(Scaling Laws)来实现？一直以来也是备受关注的问题。

唐杰认为，缩放定律描述了大模型性能与其参数量、数据规模、计算量之间的关系。虽然备受质疑，但直到今天，可能高质量的缩放仍然是提高大模型性能的重要方法。

“一方面，这几个因素相互关联，参数量更大的语言模型需要更多的高质量数据和训练量，以兼顾文本理解和生成任务上的规模扩展效果。另一方面，多模态超大规模预训练模型的兴起，要求模型算法具备在多模态数据（如图片、视频）输入输出条件下的规模扩展。这就要求在模型架构、训练算法、人类意图对齐等方法上不断创新。”

在人工智能的发展历程中，类脑研究一直在为其带来启发。

唐杰表示，“从理论的角度，AGI也需要参考人脑智能的实现机理。基于大模型的AGI或者说机器智能不一定要和人脑认知的机理一样，但剖析人脑的工作机理也许可以更好地启发AGI的实现。”

在大模型基座方面，目前的大模型主要基于Transformer架构，有三种主流架构：编码器(encoder-only，例如BERT)、编码器-解码器(encoder-decoder，例如T5)，以及解码器(decoder-only，例如GPT)。这几个架构都是国外设计并流行起来的。

“国内在原始创新和自主研发方面严重欠缺。清华大学和智谱AI结合了BERT和GPT的优势，设计了GLM架构。但如何从本质上改进预训练模型的基座能力，实现Transformer架构上的颠覆式创新还存在巨大挑战。”

他指出，“以GPT-4为代表的一系列语言模型基于互联网上海量的文本语料进行预训练，在语义理解、指令遵循等方面展现出了惊人的能力。然而，这些语言模型只能以文本形式处理内容，并无法处理图片等其他模态的信息。”

他补充解释道，形如GPT-4V等视觉文本多模态模型通过一个视觉编码器(Vision Encoder)和语言模型建立连接，使得模型初步具备一定的图片理解能力，但这种文本视觉的交互仍然处于浅层。如何利用好互联网上海量的多模态语料（图片、音频、视频）进行大规模训练仍然具有挑战。

2023年7月，OpenAI公布了由其首席科学家伊利亚·苏茨克维(Ilya Sutskever)和首席强化学习专家詹·雷克(Jan Leike)发起的超级对齐计划(Superalignment)，目标就是实现机器自动对齐人类智能和人类价值观，实现模型的自我反思和自我监控。

唐杰认为，真正做到管理AI风险还有很长的路要走，目前还是依赖于人类监管AI的能力。一个可能的方法是建立一个与人类水平相当的自动对齐系统，让AI能够自己判断自己的行为和输出。这不仅需要设计全新的算法实现可扩展训练、自动模型结果验证、自动对超级对齐结果进行评估，同时还需要超大规模的算力迭代实现超级智能对齐。

在很多人看来，芯片短缺扼住了人工智能发展的喉咙。

他表示，传统的大模型研究思维一直是围绕芯片进行算法设计，导致当前所有大模型的基础算法都只能在H100/A100类似体系架构上进行设计与实现。当前国产芯片被“卡脖子”的最关键技术是单GPU芯片的计算能力和芯片间的高速通信，尤其是后者。

“因此，有必要从底层开始，围绕大模型/AGI算法设计研发新型芯算一体大模型机。核心思想是首先设计全新的大模型算法，然后针对新算法优化内存使用，提升芯片计算效率和芯片间的通信效率。”

他指出，“通过设计全新的大模型算法和整合专用硬件构建全新大模型训练体系结构，实现全新的软硬体系架构也许是一条解决芯片被“卡脖子”的方法，实现我们自己的大模型之路。”

静电纺丝的静电纺丝技术的发展

“静电纺丝”一词来源于“electrospinning”或更早一些的“electrostatic spinning”，国内一般简称为“静电纺”、“电纺”等。 1934年，Formalas发明了用静电力制备聚合物纤维的实验装置并申请了专利，其专利公布了聚合物溶液如何在电极间形成射流，这是首次详细描述利用高压静电来制备纤维装置的专利，被公认为是静电纺丝技术制备纤维的开端。但是，从科学基础来看，这一发明可视为静电雾化或电喷的一种特例，其概念可以追溯到1745年。静电雾化与静电纺丝的最大区别在于二者采用的工作介质不同，静电雾化采用的是低粘度的牛顿流体，而静电纺丝采用的是较高粘度的非牛顿流体。这样，静电雾化技术的研究也为静电纺丝体系提供了一定的理论依据和基础。对静电纺丝过程的深入研究涉及到静电学、电流体力学、流变学、空气动力学等领域。 20世纪30年代到80年代期间，静电纺丝技术发展较为缓慢，科研人员大多集中在静电纺丝装置的研究上，发布了一系列的专利，但是尚未引起广泛的关注。进入90年代，美国阿克隆大学Reneker研究小组对静电纺丝工艺和应用展开了深入和广泛的研究。特别是近年来，随着纳米技术的发展，静电纺丝技术获得了快速发展，世界各国的科研界和工业界都对此技术表现出了极大的兴趣。此段时期，静电纺丝技术的发展大致经历了四个阶段：第一阶段主要研究不同聚合物的可纺性和纺丝过程中工艺参数对纤维直径及性能的影响以及工艺参数的优化等；第二阶段主要研究静电纺纳米纤维成分的多样化及结构的精细调控；第三个阶段主要研究静电纺纤维在能源、环境、生物医学、光电等领域的应用；第四阶段主要研究静电纺纤维的批量化制造问题。上述四个阶段相互交融，并没有明显的界线。随着纳米技术的发展，静电纺丝作为一种简便有效的可生产纳米纤维的新型加工技术，将在生物医用材料、过滤及防护、催化、能源、光电、食品工程、化妆品等领域发挥巨大作用。 ①在生物医学领域，纳米纤维的直径小于细胞，可以模拟天然的细胞外基质的结构和生物功能；人的大多数组织、器官在形式和结构上与纳米纤维类似，这为纳米纤维用于组织和器官的修复提供了可能；一些电纺原料具有很好的生物相容性及可降解性，可作为载体进入人体，并容易被吸收；加之静电纺纳米纤维还有大的比表面积、孔隙率等优良特性，因此，其在生物医学领域引起了研究者的持续关注，并已在药物控释、创伤修复、生物组织工程等方面得到了很好的应用。 ②纤维过滤材料的过滤效率会随着纤维直径的降低而提高，因而，降低纤维直径成为提高纤维滤材过滤性能的一种有效方法。静电纺纤维除直径小之外，还具有孔径小、孔隙率高、纤维均一性好等优点，使其在气体过滤、液体过滤及个体防护等领域表现出巨大的应用潜力。 ③静电纺纤维能够有效调控纤维的精细结构，结合低表面能的物质，可获得具有超疏水性能的材料，并有望应用于船舶的外壳、输油管道的内壁、高层玻璃、汽车玻璃等。但是静电纺纤维材料若要实现在上述自清洁领域的应用，必须提高其强力、耐磨性以及纤维膜材料与基体材料的结合牢度等。 ④具有纳米结构的催化剂颗粒容易团聚，从而影响其分散性和利用率，因此静电纺纤维材料可作为模板而起到均匀分散作用，同时也可发挥聚合物载体的柔韧性和易操作性，还可以利用催化材料和聚合物微纳米尺寸的表面复合产生较强的协同效应，提高催化效能。 ⑤静电纺纳米纤维具有较高的比表面积和孔隙率，可增大传感材料与被检测物的作用区域，有望大幅度提高传感器性能。此外，静电纺纳米纤维还可用于能源、光电、食品工程等领域。静电纺丝技术在构筑一维纳米结构材料领域已发挥了非常重要的作用，应用静电纺丝技术已经成功的制备出了结构多样的纳米纤维材料。通过不同的制备方法，如改变喷头结构、控制实验条件等，可以获得实心、空心、核-壳结构的超细纤维或是蜘蛛网状结构的二维纤维膜；通过设计不同的收集装置，可以获得单根纤维、纤维束、高度取向纤维或无规取向纤维膜等。但是静电纺丝技术在纤维结构调控方面还面临一些挑战：首先，要想实现静电纺纤维的产业化应用，就必须获得类似于短纤或者连续的纳米纤维束，取向纤维的制备为解决该问题提供了一条有效的途径，但是距离目标还有不少差距，今后的工作就要设法通过改良喷头、接收装置以及添加辅助电极等使纤维尽可能伸直并取向排列，获得综合性能优异的取向纤维阵列。其次，作为静电纺纳米纤维全新的研究领域—纳米蛛网的研究还在初期阶段，纳米蛛网的形成过程的理论分析和模型建立尚需深入研究。此外，要想提高静电纺纤维膜在超精细过滤领域的应用性能，就必须降低纤维的直径，如何将纤维平均直径降低到20nm以下是静电纺丝技术面临的一个挑战；要想提高纤维在传感器、催化等领域的应用性能，通过制备具有多孔或中空结构的纳米纤维来提高纤维的比表面积是一种有效方法，但仍需进一步的研究。

数据库技术的应用与发展

数据库技术是现代信息科学与技术的重要组成部分，是计算机数据处理与信息管理系统的核心。数据库技术研究和解决了计算机信息处理过程中大量数据有效地组织和存储的问题，在数据库系统中减少数据存储冗余、实现数据共享、保障数据安全以及高效地检索数据和处理数据。随着计算机技术与网络通信技术的发展，数据库技术已成为信息社会中对大量数据进行组织与管理的重要技术手段及软件技术，是网络信息化管理系统的基础。本章主要介绍数据库技术的应用与发展、关系模型的基本概念、关系数据库的设计理论及数据库设计方法等内容，是学习和掌握现代数据库技术的基础。 1.1数据库技术的发展与应用从20世纪60年代末期开始到现在，数据库技术已经发展了30多年。在这30多年的历程中，人们在数据库技术的理论研究和系统开发上都取得了辉煌的成就，而且已经开始对新一代数据库系统的深入研究。数据库系统已经成为现代计算机系统的重要组成部分。 1.1.1数据库技术与信息技术信息技术(Information Technology，IT)是当今使用频率最高的名词之一，它随着计算机技术在工业、农业以及日常生活中的广泛应用，已经被越来越多的个人和企业作为自己赶超世界潮流的标志之一。而数据库技术则是信息技术中一个重要的支撑。没有数据库技术，人们在浩瀚的信息世界中将显得手足无措。数据库技术是计算机科学技术的一个重要分支。从20世纪50年代中期开始，计算机应用从科学研究部门扩展到企业管理及政府行政部门，人们对数据处理的要求也越来越高。 1968年，世界上诞生了第一个商品化的信息管理系统IMS(Information Management System)，从此，数据库技术得到了迅猛发展。在互联网日益被人们接受的今天，Internet又使数据库技术、知识、技能的重要性得到了充分的放大。现在数据库已经成为信息管理、办公自动化、计算机辅助设计等应用的主要软件工具之一，帮助人们处理各种各样的信息数据。 1.1.2数据库技术的应用及特点数据库最初是在大公司或大机构中用作大规模事务处理的基础。后来随着个人计算机的普及，数据库技术被移植到PC机(Personal Computer，个人计算机)上，供单用户个人数据库应用。接着，由于PC机在工作组内连成网，数据库技术就移植到工作组级。现在，数据库正在Internet和内联网中广泛使用。 20世纪60年代中期，数据库技术是用来解决文件处理系统问题的。当时的数据库处理技术还很脆弱，常常发生应用不能提交的情况。 20世纪70年代关系模型的诞生为数据库专家提供了构造和处理数据库的标准方法，推动了关系数据库的发展和应用。 1979年，Ashton-Tate公司引入了微机产品dBase Ⅱ，并称之为关系数据库管理系统，从此数据库技术移植到了个人计算机上。 20世纪80年代中期到后期，终端用户开始使用局域网技术将独立的计算机连接成网络，终端之间共享数据库，形成了一种新型的多用户数据处理，称为客户机/服务器数据库结构。现在，数据库技术正在被用来同Internet技术相结合，以便在机构内联网、部门局域网甚至WWW上发布数据库数据。 1.1.3数据库技术发展历史数据模型是数据库技术的核心和基础，因此，对数据库系统发展阶段的划分应该以数据模型的发展演变作为主要依据和标志。按照数据模型的发展演变过程，数据库技术从开始到现在短短的30年中，主要经历了三个发展阶段：第一代是网状和层次数据库系统，第二代是关系数据库系统，第三代是以面向对象数据模型为主要特征的数据库系统。数据库技术与网络通信技术、人工智能技术、面向对象程序设计技术、并行计算技术等相互渗透、有机结合，成为当代数据库技术发展的重要特征。 1. 第一代数据库系统第一代数据库系统是20世纪70年代研制的层次和网状数据库系统。层次数据库系统的典型代表是1969年IBM公司研制出的层次模型的数据库管理系统IMS。 20世纪60年代末70年代初，美国数据库系统语言协会CODASYL(Conference on Data System Language)下属的数据库任务组DBTG(Data Base Task Group)提出了若干报告，被称为DBTG报告。 DBTG报告确定并建立了网状数据库系统的许多概念、方法和技术，是网状数据库的典型代表。在DBTG思想和方法的指引下数据库系统的实现技术不断成熟，开发了许多商品化的数据库系统，它们都是基于层次模型和网状模型的。可以说，层次数据库是数据库系统的先驱，而网状数据库则是数据库概念、方法、技术的奠基者。 2. 第二代数据库系统第二代数据库系统是关系数据库系统。 1970年IBM公司的San Jose研究试验室的研究员Edgar F. Codd发表了题为《大型共享数据库数据的关系模型》的论文，提出了关系数据模型，开创了关系数据库方法和关系数据库理论，为关系数据库技术奠定了理论基础。 Edgar F. Codd于1981年被授予ACM图灵奖，以表彰他在关系数据库研究方面的杰出贡献。 20世纪70年代是关系数据库理论研究和原型开发的时代，其中以IBM公司的San Jose研究试验室开发的System R和Berkeley大学研制的Ingres为典型代表。大量的理论成果和实践经验终于使关系数据库从实验室走向了社会，因此，人们把20世纪70年代称为数据库时代。 20世纪80年代几乎所有新开发的系统均是关系型的，其中涌现出了许多性能优良的商品化关系数据库管理系统，如DB2、Ingres、Oracle、Informix、Sybase等。这些商用数据库系统的应用使数据库技术日益广泛地应用到企业管理、情报检索、辅助决策等方面，成为实现和优化信息系统的基本技术。 3. 第三代数据库系统从20世纪80年代以来，数据库技术在商业上的巨大成功刺激了其他领域对数据库技术需求的迅速增长。这些新的领域为数据库应用开辟了新的天地，并在应用中提出了一些新的数据管理的需求，推动了数据库技术的研究与发展。 1990年高级DBMS功能委员会发表了《第三代数据库系统宣言》，提出了第三代数据库管理系统应具有的三个基本特征：l应支持数据管理、对象管理和知识管理。 l必须保持或继承第二代数据库系统的技术。 l必须对其他系统开放。面向对象数据模型是第三代数据库系统的主要特征之一；数据库技术与多学科技术的有机结合也是第三代数据库技术的一个重要特征。分布式数据库、并行数据库、工程数据库、演绎数据库、知识库、多媒体库、模糊数据库等都是这方面的实例。 1.1.4数据库系统访问技术目前访问数据库服务器的主流标准接口主要有ODBC、OLE DB和ADO。下面分别对这三种接口进行概要介绍。 1. 开放数据库连接(ODBC)开放数据库连接(Open Database Connectivity，ODBC)是由Microsoft公司定义的一种数据库访问标准。使用ODBC应用程序不仅可以访问存储在本地计算机的桌面型数据库中的数据，而且可以访问异构平台上的数据库，例如可以访问SQL Server、Oracle、Informix或DB2构建的数据库等。 ODBC是一种重要的访问数据库的应用程序编程接口(Application Programming Interface，API)，基于标准的SQL语句，它的核心就是SQL语句，因此，为了通过ODBC访问数据库服务器，数据库服务器必须支持SQL语句。 ODBC通过一组标准的函数(ODBC API)调用来实现数据库的访问，但是程序员不必理解这些ODBC，API就可以轻松开发基于ODBC的客户机/服务器应用程序。这是因为在很多流行的程序开发语言中，如Visual Basic、PowerBuilder、Visual C++等，都提供了封装ODBC各种标准函数的代码层，开发人员可以直接使用这些标准函数。 ODBC获得了巨大成功并大大简化了一些数据库开发工作。但是它也存在严重的不足，因此Microsoft公司又开发了OLE DB。 2. OLE DBOLE DB是Microsoft公司提供的关于数据库系统级程序的接口(System-Level Programming Interface)，是Microsoft公司数据库访问的基础。 OLE DB实际上是Microsoft公司OLE对象标准的一个实现。 OLE DB对象本身是COM(组件对象模型)对象并支持这种对象的所有必需的接口。一般说来，OLE DB提供了两种访问数据库的方法：一种是通过ODBC驱动器访问支持SQL语言的数据库服务器；另一种是直接通过原始的OLE DB提供程序。因为ODBC只适用于支持SQL语言的数据库，因此ODBC的使用范围过于狭窄，目前Microsoft公司正在逐步用OLE DB来取代ODBC。因为OLE DB是一个面向对象的接口，特别适合于面向对象语言。然而，许多数据库应用开发者使用VBScript和JScript等脚本语言开发程序，所以Microsoft公司在OLE DB对象的基础上定义了ADO。 3. 动态数据对象(ADO)动态数据对象(Active Data Objects，ADO)是一种简单的对象模型，可以被开发者用来处理任何OLE DB数据，可以由脚本语言或高级语言调用。 ADO对数据库提供了应用程序水平级的接口(Application-Level Programming Interface)，几乎使用任何语言的程序员都能够通过使用ADO来使用OLE DB的功能。 Microsoft公司声称，ADO将替换其他的数据访问方式，所以ADO对于任何使用Microsoft公司产品的数据库应用是至关重要的。 1.1.5网络数据库系统编程技术在当今网络盛行的年代，数据库与Web技术的结合正在深刻改变着网络应用。有了数据库的支持，扩展网页功能、设计交互式页面、构造功能强大的后台管理系统、更新网站和维护网站都将变得轻而易举。随着网络应用的深入，Web数据库技术将日益显示出其重要地位。在这里简单介绍一下Web数据库开发的相关技术。 1. 通用网关接口(CGI)编程通用网关接口(Common Gateway Interface，CGI)是一种通信标准，它的任务是接受客户端的请求，经过辨认和处理，生成HTML文档并重新传回到客户端。这种交流过程的编程就叫做CGI编程。 CGI可以运行在多种平台上，具有强大的功能，可以使用多种语言编程，如Visual Basic、Visual C++、Tcl、Perl、AppletScript等，比较常见的是用Perl语言编写的CGI程序。但是CGI也有其致命的弱点，即速度慢和安全性差等。 2. 动态服务器页面(ASP)动态服务器页面(Active Server Pages，ASP)是Microsoft公司推出的一种用以取代CGI的技术，是一种真正简便易学、功能强大的服务器编程技术。 ASP实际上是Microsoft公司开发的一套服务器端脚本运行环境，通过ASP可以建立动态的、交互的、高效的Web服务器应用程序。用ASP编写的程序都在服务器端执行，程序执行完毕后，再将执行的结果返回给客户端浏览器，这样不仅减轻了客户端浏览器的负担，大大提高了交互速度，而且避免了ASP程序源代码的外泄，提高了程序的安全性。 3. Java 服务器页面(JSP)Java服务器页面(Java Server Pages，JSP)是Sun公司发布的Web应用程序开发技术，一经推出，就受到了人们的广泛关注。 JSP技术为创建高度动态的Web应用程序提供了一个独特的开发环境，它能够适用于市场上大多数的服务器产品。 JSP使用Java语言编写服务器端程序，当客户端向服务器发出请求时，JSP源程序被编译成Servlet并由Java虚拟机执行。这种编译操作仅在对JSP页面的第一次请求时发生。因此，JSP程序能够提供更快的交互速度，其安全性和跨平台性也很优秀。