特定任务性能同样大幅提升清华 CMU&amp 让LLM自己合成数据来学习

作者： 2024年08月01日科技浏览

本文主要作者来自清华大学和卡内基梅隆大学（CMU）。共同一作为清华大学计算机系本科毕业生赵晨阳，卡内基梅隆大学硕士生贾雪莹。

虽然大规模语言模型（LLM）在许多自然语言处理任务中表现优异，但在具体任务中的效果却不尽如人意。为了提升模型在特定自然语言任务上的表现，现有的方法主要依赖于高质量的人工标注数据。这类数据的收集过程既耗时又费力，对于数据稀缺的任务尤为困难。

为了解决这个问题，一些研究尝试通过强大的 Teacher Model 生成训练数据，来增强 Student Model 在特定任务上的性能。然而，这种方法在成本、可扩展性和法律合规性方面仍面临诸多挑战。在无法持续获得高质量人类监督信号的情况下，如何持续迭代模型的能力，成为了亟待解决的问题。

来自卡内基梅隆大学和清华大学的研究团队提出了 SELF-GUIDE 方法。该方法通过语言模型自身生成任务特定的数据集，并在该数据集上进行微调，从而显著提升模型在特定任务上的能力，无需依赖大量外部高质量数据或更强大的 Teacher Model。具体来说，在外部输入大约 3 个样例的情况下，SELF-GUIDE 采用多阶段的生成和过滤机制，利用模型生成的合成数据进行微调，使模型在特定任务上的表现更加出色。

图 1：SELF-GUIDE 利用模型自主合成数据的能力提升模型执行特定任务的能力。

方法

具体来说，研究团队将 SELF-GUIDE 方法分解为三个主要阶段：输入数据生成、输出数据生成和质量优化。

输入数据生成

在 SELF-GUIDE 框架的设计和实现过程中，研究者首先根据任务类型（生成型任务或分类型任务）指定不同的提示模板。对于生成型任务， SELF-GUIDE 框架使用一个相对简单的提示模板。而对于分类型任务， SELF-GUIDE 框架则采用了另一种策略。对于分类任务， SELF-GUIDE 框架首先从全部标签空间中随机选择一个标签，将其作为条件生成的伪标签，指导输入数据的生成。选定伪标签后， SELF-GUIDE 框架使用较为复杂的条件生成模板，引导模型生成与所选伪标签相对应的输入内容。

图 2：SELF-GUIDE 的核心在于一个高效的多阶段生成机制，其中语言模型逐步生成输入数据输出数据组合。经过生成和过滤后，自生成的数据进一步用于微调语言模型本身。此图描述了 SELF-GUIDE 针对生成任务的流程。

选定模板并填充示例（few-shot examples）后，完整的提示被传递给 LLM，以生成输入数据。每轮提示后，新生成的输入会被添加到输入库中。从这个库中随机抽取一部分输入，并与初始示例中的输入合并，形成新的提示，逐步扩展 LLM 生成的输入集并且减少重复。SELF-GUIDE 仅进行一轮输入生成，随后在质量优化阶段，应用基于规则的过滤器来去除低质量的输入。

图 3：此图描述了 SELF-GUIDE 完成分类任务的过程。对于分类任务的数据，SELF-GUIDE 首先生成伪标签，然后生成对应的输入，最后重新生成真实标签。

输出数据生成

输出数据生成阶段采用了典型的上下文学习方法：研究者向模型提供任务指令和原始示例，使模型对输入生成阶段产生的每一个输入进行标注。在获取所有输出后，再进行一轮基于规则的过滤，以选择最终的合成数据集。

质量优化

生成数据的质量对于下游训练的成功至关重要。SELF-GUIDE 采用了两种策略来提高质量：调整生成参数以提高生成质量并基于规则过滤掉低质量样本。

调整温度：调整温度是一种平衡多样性和质量的常见策略。SELF-GUIDE 框架在输入生成阶段使用较高的温度以鼓励多样性，在其他阶段通过使用较低的温度确保得到概率最高的输出，从而保证整体数据质量。然而，仅依靠温度调整不足以实现所需的平衡。因此， SELF-GUIDE 还在输入生成后和输出注释后分别进行了两轮基于规则的数据过滤。

噪声过滤（Noise Filter）：研究者手动整理了一份噪声术语列表，包括常见的问候语和噪声字符（例如，生成内容中的”\\”）。如果生成示例的输入或输出中出现了任何来自这份列表的噪声术语， SELF-GUIDE 将丢弃整个示例。

长度过滤（Length Filter）：虽然示例的长度可能存在偏差，但是研究者认为这些示例在特定任务的长度分布方面仍然具有代表性。SELF-GUIDE 假设示例的长度遵循正态分布，并计算出输入样例的均值 μ 和标准差 σ，研究者假定生成示例的输入和输出长度应符合同一正态分布，并要求长度在 (μ − 2σ, μ + 2σ) 范围内。

整体参数微调（One Parameter Fits All）：为了使 SELF-GUIDE 生成符合指令和示例指定目标分布的训练数据，需要在标注数据点上优化各种超参数，包括生成输入输出的个数、输入数据生成的温度、输出数据生成的温度、微调参数等。研究者将实验测试任务分为两部分：一部分可以利用所有数据进行验证以调整生成参数，称为验证任务；另一部分的数据仅用于测试而不可用于调整参数，称为测试任务。研究者在验证任务上搜索 “最大化最差任务性能” 的参数，并将其固定用于测评 SELF-GUIDE 在测试任务上的表现。

实验结果

为了评估 SELF-GUIDE 的有效性，研究者从 Super-NaturalInstructions V2 基准中选择了 14 个分类任务和 8 个生成任务。研究者随机选择了一半任务用于超参数搜索，剩余的一半用于评估。在模型方面，研究者选择了 Vicuna-7b-1.5 作为输入生成、输出生成和微调的基础模型。在评估指标方面，研究者采用了与 Super-NaturalInstructions 基准相同的评估指标，即分类任务的 Exact Match 和生成任务的 ROUGE-L。

为了体现 SELF-GUIDE 的效果，研究者将 SELF-GUIDE 与其他指令跟随和上下文学习方法进行了比较：

1.Few-Shot ICL：作为主要基准，研究者与直接提示语言模型进行了比较。这种方法直接依赖于模型固有的指令跟随能力。

2.Self-ICL：Self-ICL 使用自生成的示例来提高零样本指令跟随。研究者在 Self-ICL 工作的基础上进行了修改，通过自生成尽可能多的示例（而不是固定个数的示例）填充提示词，从而增加参考样本数目。

3.Few-Shot Finetuning：直接利用输入的少量示例进行微调。

SELF-GUIDE 原文主要实验结果如下所示。在基准的评估指标上，分类任务的绝对提升达到了 14.5%，而生成任务的绝对提升则达到了 17.9%。这些结果表明， SELF-GUIDE 在指导 LLM 向任务特定专业化方向发展方面具有显著效果，即使在数据极其有限的情况下。这突显了自我生成数据在大规模适应 LLM 到特定任务中的潜力。更多实验结果和消融实验请参考论文原文。

图 4：对于每类任务（分类和生成任务），研究者将任务随机分成两半，一半用于调试 “One Parameter Fits All” 策略的参数，另一半用于使用这些调试好的参数测试 SELF-GUIDE 的性能。我们使用相同的解码参数和提示模板来评估模型在 SELF-GUIDE 前后的表现。

总结

SELF-GUIDE 框架鼓励模型自主生成训练数据并在此数据上进行微调。实验结果表明，这种方法在提升大规模语言模型特定任务的专业能力方面具有巨大潜力，尤其是在数据有限的情况下，SELF-GUIDE 可以有效解决缺少训练数据的问题。同时，这也为探索自主模型适应和持续学习的技术提供了参考。研究者希望这一工作能够推动 AI 系统在自主对齐和改进机制方面的发展，使其更加符合人类的意图。

北大清华哪个好？

北大属于综合的类型：文科和理科(数学、经济管理、数学、物理、化学、生物、法学等基础科学)是全国最好的，此外北大医学的排名也十分靠前的。清华属于理工的类型：工科(电气、水利工程、自动化、机械丶建筑、土木工程、经济管理、力学、计算机、电子信息、核能、电机等）当属清华。网友二：清华，北大，都是目前国内最高的学府，难分伯仲。从专业上分，二者有点不同。清华大学的工科要好一些，北大的文科要好一些。从历史上讲，北大的历史更深远一些。从人才上说，清华更占有一定的优势。所以在清华和北大之间，很难分清，谁是第一？谁是第二？但有一点必须说明，清华大学的某些专业在国际上是很出名的。而北京大学的专业，在国际上似乎没有太出色的。所以从国内上说，清华大学北京大学难分伯仲，但从国际上的评价来说，清华大学应该名列第一。网友三：拉萨大学最高。不服来辩。藏传佛教圣地，清华北大懂吗？没有条件和标准，瞎比较。在没有条件和标准的情况下，你永远找不到最字。科研强是不，那么做航天算不算？航天大学那里摆，看来理工科也需要具体化否则还是无意义的瞎聊。如果比医学也行，那么算文算理，大学排名很多是名气，学术论文，科研经费那些东西，很多领域，还有专门的大学，比较毫无意义。网友四：清华大学和北京大学都是我国的世界一流大学，如果把我国所有大学进行分级，北大和清华属于第一级，而且与第二级有很大的差距。两所大学的全国知名度是最高的，可以说家喻户晓。高考的录取分数也最高，集中了我国大多数的高考状元，是名副其实的精英大学。可以说清华北大都是我国的最高学府。清华大学是理工类大学，它的工科类是最强的；北京大学是综合类大学，它的文科类和理科类是最强的。网友五：中国的大学就这么奇怪：第三名以后好评，就是一二难弄！我遇到清华毕业的，一般合称清北～若遇到北大毕业的，则称北清，也是醉了！排名有这么重要没有活力的发展模式开启了！网友六：根据高考成绩如果学工科就去清华，文科和理科就去北大。清华大学高考的平均录取分数要比北大高几分，清华大学的高考状元比北大多些。北京大学学生的综合素质要比清华大学高一些。目前，我国有很多大学排名，国外也有很多大学排名，不是北大第一，就是清华第一。可以说两所大学是伯仲之间，如果非要说谁是最高学府的话，北京大学比清华大学综合实力要强一些，所以说北京大学应该是中国的最高学府。

清华和北大哪个好？

两者均是世界名校，之间没有可比性。因为学校类型不同，清华更侧重于文科；而北大更加地侧重于理科。另外两者均是中央直管副部级建制的全国重点大学。

1、学校前身清华学堂始建于1911年，校名“清华”源于校址“清华园”地名，是清政府设立的留美预备学校，其建校的资金源于1908年美国退还的部分庚子赔款。 1912年更名为清华学校。 1928年更名为国立清华大学。

1937年抗日战争全面爆发后南迁长沙，与国立北京大学、私立南开大学组建国立长沙临时大学，1938年迁至昆明改名为国立西南联合大学。 1946年迁回清华园。

1949年中华人民共和国成立，清华大学进入新的发展阶段。 1952年全国高等学校院系调整后成为多科性工业大学。 1978年以来逐步恢复和发展为综合性的研究型大学。

2、北京大学创立于1898年维新变法之际，初名京师大学堂，是中国近现代第一所国立综合性大学，创办之初也是国家最高教育行政机关。

1912年改为国立北京大学。 1937年南迁至长沙，与国立清华大学和私立南开大学组成国立长沙临时大学，1938年迁至昆明，更名为国立西南联合大学。 1946年复员返回北平（现北京）。

1952年经全国高校院系调整，成为以文理基础学科为主的综合性大学，并自北京城内沙滩等地迁至现址。 2000年与原北京医科大学合并，组建为新的北京大学。

扩展资料：

1、清华的师资力量：

截至2018年12月底，学校有教师3485人，其中45岁以下青年教师1743人。教师中具有正高级职务的1381人，具有副高级职务的1648人。

教师中有诺贝尔奖获得者1名，图灵奖获得者1名，中国科学院院士51名，中国工程院院士39名，16名教授荣获国家级“高等学校教学名师奖”，167人入选教育部长江学者奖励计划特聘教授，52人入选年学者，239人获得国家杰出青年科学基金，152人获得优秀青年科学基金。

2、北大的师资力量：

截至2018年12月，北大拥有教职工（不包含博士后）人；专任教师数7317人，其中，按职称划分：正高级2217人，副高级2231人；

其中中国科学院院士76人，中国工程院院士19人，发展中国家科学院院士25人，哲学社会科学资深教授13人，“万人计划”入选者28人；

“青年拔尖人才计划”入选者35人，“长江学者奖励计划”特聘教授、讲座教授、青年学者231人，国家杰出青年基金获得者237人，国家基金委创新群体40个；

国家基金委优秀青年基金获得者130人，国家级教学名师17人，博士生导师2474人，科研机构人员1161人，附属医院教职工人

春节在家不再无聊，这份2019 AI研究进展回顾陪伴你

2019 年可以说是「预训练模型」流行起来的一年。自 BERT 引发潮流以来，相关方法的研究不仅获得了 EMNLP 大会最佳论文等奖项，更是在 NLP、甚至图像领域里引领了风潮。

去年也有很多游戏AI 取得了超越人类的水平。人工智能不仅已经玩转德州扑克、星际争霸和 Dota2 这样复杂的游戏，还获得了 Nature、Science 等顶级期刊的肯定。

机器之心整理了去年全年在人工智能、量子计算等领域里最为热门的七项研究。让我们以时间的顺序来看：

第一个重磅研究出现在 2 月，继发布刷新 11 项 NLP 任务记录的 3 亿参数量语言模型 BERT 之后，谷歌 OpenAI 于 2019 年 2 月再次推出了一种更为强大的模型，而这次的模型参数量达到了 15 亿。这是一种大型无监督语言模型，能够生产连贯的文本段落，在许多语言建模基准上取得了 SOTA 表现。此外，在没有任务特定训练的情况下，该模型能够做到初步的阅读理解、机器翻译、问答和自动摘要。

该模型名为 GPT-2，它是基于 Transformer 的大型语言模型，包含 15 亿参数、在一个 800 万网页数据集上训练而成。训练 GPT-2 有一个简单的目标：给定一个文本中前面的所有单词，预测下一个单词。 GPT-2 是对 GPT 模型的直接扩展，在超出 10 倍的数据量上进行训练，参数量也多出了 10 倍。

GPT-2 展示了一系列普适而强大的能力，包括生成当前最佳质量的条件合成文本，其中我们可以将输入馈送到模型并生成非常长的连贯文本。此外，GPT-2 优于在特定领域（如维基百科、新闻或书籍）上训练的其它语言模型，而且还不需要使用这些特定领域的训练数据。在知识问答、阅读理解、自动摘要和翻译等任务上，GPT-2 可以从原始文本开始学习，无需特定任务的训练数据。虽然目前这些下游任务还远不能达到当前最优水平，但 GPT-2 表明如果有足够的（未标注）数据和计算力，各种下游任务都可以从无监督技术中获益。

最后，基于大型通用语言模型可能会产生巨大的社会影响，也考虑到模型可能会被用于恶意目的，在发布 GPT-2 时，OpenAI 采取了以下策略：仅发布 GPT-2 的较小版本和示例代码，不发布数据集、训练代码和 GPT-2 模型权重。

机器学习顶会的最佳论文，总会引起人们的广泛讨论。在今年 6 月于美国加州举办的 ICML 2019（国际机器学习大会）上，由苏黎世联邦理工学院（ETH）、德国马普所、谷歌大脑共同完成的《Challenging Common Assumptions in the Unsupervised Learning of Disentangled Representations》获得了其中一篇最佳论文。研究者在论文中提出了一个与此前学界普遍预测相反的观点：对于任意数据，拥有相互独立表征（解耦表征）的无监督学习是不可能的。

论文链接：在这篇论文中，研究者冷静地审视了该领域的最新进展，并对一些常见的假设提出了质疑。

首先，研究者表示从理论上来看，如果不对模型和数据进行归纳偏置，无监督学习解耦表征基本是不可能的；然后他们在七个不同数据集进行了可复现的大规模实验，并训练了多个模型，包括一些主流方法和评估指标；最后，实验结果表明，虽然不同的方法强制执行了相应损失「鼓励」的属性，但如果没有监督，似乎无法识别完全解耦的模型。此外，增加的解耦似乎不会导致下游任务学习的样本复杂度的下降。

研究者认为，基于这些理论，机器学习从业者对于超参数的选择是没有经验法则可循的，而在已有大量已训练模型的情况下，无监督的模型选择仍然是一个很大的挑战。

去年 6 月，来自德国波恩-莱茵-锡格应用技术大学和谷歌大脑的研究者发表了一篇名为《Weight Agnostic Neural Networks》的论文，进而引爆了机器学习圈。在该论文中，他们提出了一种神经网络架构搜索方法，这些网络可以在不进行显式权重训练的情况下执行各种任务。

论文链接：通常情况下，权重被认为会被训练成 MNIST 中边角、圆弧这类直观特征，而如果论文中的算法可以处理 MNIST，那么它们就不是特征，而是函数序列/组合。对于 AI 可解释性来说，这可能是一个打击。很容易理解，神经网络架构并非「生而平等」，对于特定任务一些网络架构的性能显著优于其他模型。但是相比架构而言，神经网络权重参数的重要性到底有多少？

来自德国波恩-莱茵-锡格应用技术大学和谷歌大脑的一项新研究提出了一种神经网络架构搜索方法，这些网络可以在不进行显式权重训练的情况下执行各种任务。

为了评估这些网络，研究者使用从统一随机分布中采样的单个共享权重参数来连接网络层，并评估期望性能。结果显示，该方法可以找到少量神经网络架构，这些架构可以在没有权重训练的情况下执行多个强化学习任务，或 MNIST 等监督学习任务。

BERT 带来的影响还未平复，CMU 与谷歌大脑 6 月份提出的 XLNet 在 20 个任务上超过了 BERT 的表现，并在 18 个任务上取得了当前最佳效果。

来自卡耐基梅隆大学与谷歌大脑的研究者提出新型预训练语言模型 XLNet，在 SQuAD、GLUE、RACE 等 20 个任务上全面超越 BERT。

作者表示， BERT 这样基于去噪自编码器的预训练模型可以很好地建模双向语境信息，性能优于基于自回归语言模型的预训练方法。然而，由于需要 mask 一部分输入，BERT 忽略了被 mask 位置之间的依赖关系，因此出现预训练和微调效果的差异（pretrain-finetune discrepancy）。

基于这些优缺点，该研究提出了一种泛化的自回归预训练模型 XLNet。 XLNet 可以：1）通过最大化所有可能的因式分解顺序的对数似然，学习双向语境信息；2）用自回归本身的特点克服 BERT 的缺点。此外，XLNet 还融合了当前最优自回归模型 Transformer-XL 的思路。

延伸阅读：

2019 年 7 月，在无限制德州扑克六人对决的比赛中，德扑 AI Pluribus 成功战胜了五名专家级人类玩家。 Pluribus 由 Facebook 与卡耐基梅隆大学（CMU）共同开发，实现了前辈 Libratus（冷扑大师）未能完成的任务，该研究已经登上了当期《科学》杂志。

据介绍，Facebook 和卡内基梅隆大学设计的比赛分为两种模式：1 个 AI+5 个人类玩家和 5 个 AI+1 个人类玩家，Pluribus 在这两种模式中都取得了胜利。如果一个筹码值 1 美元，Pluribus 平均每局能赢 5 美元，与 5 个人类玩家对战一小时就能赢 1000 美元。职业扑克玩家认为这些结果是决定性的胜利优势。这是 AI 首次在玩家人数（或队伍）大于 2 的大型基准游戏中击败顶级职业玩家。

在论文中，Pluribus 整合了一种新的在线搜索算法，可以通过搜索前面的几步而不是只搜索到游戏结束来有效地评估其决策。此外，Pluribus 还利用了速度更快的新型 Self-Play 非完美信息游戏算法。综上所述，这些改进使得使用极少的处理能力和内存来训练 Pluribus 成为可能。训练所用的云计算资源总价值还不到 150 美元。这种高效与最近其他人工智能里程碑项目形成了鲜明对比，后者的训练往往要花费数百万美元的计算资源。

Pluribus 的自我博弈结果被称为蓝图策略。在实际游戏中，Pluribus 使用搜索算法提升这一蓝图策略。但是 Pluribus 不会根据从对手身上观察到的倾向调整其策略。

在人工智能之外的量子计算领域，去年也有重要的研究突破。 2019 年 9 月，谷歌提交了一篇名为《Quantum supremacy using a programmable superconducting processor》的论文自 NASA 网站传出，研究人员首次在实验中证明了量子计算机对于传统架构计算机的优越性：在世界第一超算 Summit 需要计算 1 万年的实验中，谷歌的量子计算机只用了 3 分 20 秒。因此，谷歌宣称实现「量子优越性」。之后，该论文登上了《自然》杂志 150 周年版的封面。

这一成果源自科学家们不懈的努力。谷歌在量子计算方向上的研究已经过去了 13 年。 2006 年，谷歌科学家 Hartmut Neven 就开始探索有关量子计算加速机器学习的方法。这项工作推动了 Google AI Quantum 团队的成立。 2014 年，John Martinis 和他在加利福尼亚大学圣巴巴拉分校（UCSB）的团队加入了谷歌的工作，开始构建量子计算机。两年后，Sergio Boixo 等人的论文发表，谷歌开始将工作重点放在实现量子计算优越性任务上。

如今，该团队已经构建起世界上第一个超越传统架构超级计算机能力的量子系统，可以进行特定任务的计算。

量子优越性实验是在一个名为 Sycamore 的 54 量子比特的完全可编程处理器上运行的。该处理器包含一个二维网格，网格中的每个量子比特与其他四个相连。量子优越性实验的成功归功于谷歌改进了具有增强并行性的双量子比特门，即使同时操作多个门，也能可靠地实现记录性能。谷歌使用一种新型的控制旋钮来实现这一性能，该旋钮能够关闭相邻量子比特之间的交互。此举大大减少了这种多连通量子比特系统中的误差。此外，通过优化芯片设计来降低串扰，以及开发避免量子比特缺陷的新控制校准，谷歌进一步提升了性能。

虽然 AI 没有打败最强人类玩家 Serral，但其研究的论文仍然登上了 Nature。 2019 年 10 月底，DeepMind 有关 AlphaStar 的论文发表在了当期《Nature》杂志上，这是人工智能算法 AlphaStar 的最新研究进展，展示了AI 在「没有任何游戏限制的情况下」已经达到星际争霸Ⅱ人类对战天梯的顶级水平，在上的排名已超越 99.8％的活跃玩家。

回顾 AlphaStar 的发展历程，DeepMind 于 2017 年宣布开始研究能进行即时战略游戏星际争霸Ⅱ的人工智能——AlphaStar。 2018 年 12 月 10 日，AlphaStar 击败 DeepMind 公司里的最强玩家 Dani Yogatama；12 月 12 日，AlphaStar 已经可以 5:0 击败职业玩家 TLO 了（TLO 是虫族玩家，据游戏解说们认为，其在游戏中的表现大概能有 5000 分水平）；又过了一个星期，12 月 19 日，AlphaStar 同样以 5:0 的比分击败了职业玩家 MaNa。至此，AlphaStar 又往前走了一步，达到了主流电子竞技游戏顶级水准。

根据《Nature》论文描述，DeepMind 使用通用机器学习技术（包括神经网络、借助于强化学习的自我博弈、多智能体学习和模仿学习）直接从游戏数据中学习。 AlphaStar 的游戏方式令人印象深刻——这个系统非常擅长评估自身的战略地位，并且准确地知道什么时候接近对手、什么时候远离。此外，论文的中心思想是将游戏环境中虚构的自我博弈扩展到一组智能体，即「联盟」。

联盟这一概念的核心思想是：仅仅只是为了赢是不够的。相反，实验需要主要的智能体能够打赢所有玩家，而「压榨（exploiter）」智能体的主要目的是帮助核心智能体暴露问题，从而变得更加强大。这不需要这些智能体去提高它们的胜率。通过使用这样的训练方法，整个智能体联盟在一个端到端的、完全自动化的体系中学到了星际争霸Ⅱ中所有的复杂策略。

2019 年在 AI 领域的各个方向上都出现了很多技术突破。新的一年，我们期待更多进展。

此外，机器之心于 2019 年 9 月底推出了自己的新产品 SOTA 模型，读者可以根据自己的需要寻找机器学习对应领域和任务下的 SOTA 论文，平台会提供论文、模型、数据集和 benchmark 的相关信息。

声明：本站内容均来自互联网，仅供演示用，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，我们将在24小时内删除。
本文地址：https://srwj168.com.cn/keji312/5894.html

北大清华哪个好？

清华和北大哪个好？

春节在家不再无聊，这份2019 AI研究进展回顾陪伴你

相关文章