证明梯度流算法的收敛性 耶鲁团队揭示多头自注意力结构的上下文学习机制

众所周知,目前的大模型大多基于 Transformer 架构。Transformer 的核心结构是多头自注意力模型(multi-head self-attention model)。

大模型的一个重要能力是所谓的“上下文学习”。具体来说,当大模型的参数训练好之后,用户和大模型的交互方式,是通过提供上文来获得大模型的下文,这时大模型的参数是固定的。

当所提供的上文包含一些关于同一主题的输入输出例子时,大模型可以根据给的这些例子,学到这些例子背后的主题,从而可以在给到一个新输入时,回答正确的输出。

比如,上文可以是:

这时,Claude 3 大模型的回答是:

由图可知,Claude 根据这些例子意识到“+”其实代表着减法,故能针对“10+5=?”这一新问题给出正确回答。

上下文学习,是大模型的一个基础能力。使用大模型时的其他更复杂方式比如 Chain-of-thought reasoning,都是以此为基础。

但是,从原理来看上下文学习的机制并不是很清楚。很大原因在于大模型作为一个系统,它不仅非常复杂,而且模型参数非常多,训练数据也非常大。

为了更好地理解上下文学习,美国斯坦福大学团队曾在 GPT-2 架构之下,针对大模型如何使用上下文,学习解决简单的回归预测进行了研究。

其发现当使用简单函数的数据来训练大模型时,训练好的大模型,可以通过上下文学到这些简单函数。

一个特别的例子便是线性函数。这时的训练数据是一些线性数据 x_1,w x_1,…,x_n,w x_n,其中 w 是高斯随机向量。

换句话说,每个“句子”里都有 n 个线性函数的例子,而这个线性函数是随机的。

以此为启发,美国耶鲁大学助理教授杨卓然和团队,希望可以从理论上研究这种训练过程是否收敛、以及收敛到哪里,也希望厘清多头自注意力结构到底是如何实现上下文学习的。

随后,他和所在团队考虑了一个最简单的模型:一层多头自注意力模型。

具体来说在本次课题之中,他们研究了训练多头自注意力模型(multi-head self-attention model)的优化问题。

尤其是,他们回答了这样一个问题:在使用一层多头自注意力模型(one-layer multi-head self-attention model)进行上下文学习时:

首先,梯度优化算法是否能够收敛?

其次,梯度优化算法收敛到的解统计性质如何?

再次,从网络结构的角度看,多头自注意力模型是如何进行上下文学习的?

期间,他们所使用的训练数据是多任务线性模型(multi-task linear regression)。

特别地,每个线性模型的参数 G 在一个固定的正交基下,有一个分块对角的分解。

也就是说如果能找到这组基,这个线性模型就可以分解成 H 个独立的线性模型。

对于每个参数 G,能够生成 L 个(x,y)对,并且可以让 Transformer 推测一个随机的 q 所对应的 y 是什么。

在这种多任务线性数据上,课题组使用梯度流来训练 Transformer,进而研究这一算法的收敛问题。

通过此,他们发现:梯度流算法的确是收敛的。并且收敛有三个阶段——(a)预热阶段、(b)任务分配阶段 、以及(c)最终收敛阶段。

在(a)这一预热阶段,损失函数缓慢下降。

在(b)这一“任务分配阶段”,损失函数迅速下降。并且,softmax 函数使得每一个自注意力头只关注多任务线性模型的一个任务,该团队把这一现象称为“任务分配”。

在(c)最终收敛阶段,每个自注意力头继续对它被分配的任务求解,最终达到收敛。

此外,他们还描述了梯度流学习的极限模型的上下文学习预测误差。

当 (d/L) 趋于零时,误差衰减到零,其中 d 是线性模型的维数,L 是上下文学习中(x,y)例子的数量。

并且,该团队还证明多头自注意力模型,显著好于单头自注意力模型。所预测的误差相差 H 倍之多,其中 H 是注意力头的个数。

换句话说,注意力头的个数越多,性能差距越大。

据介绍,该团队的分析主要基于对自注意力权重的分解。

自注意力机制里主要有两类权重:QK 权重(query-key)和 OV 权重(output-value)。其中,QK 权重反应着 query 和 key 的关系。

简单来说,就是给定了 query q(新的输入)和过去的例子(x,y)的关系。

而 QK 权重反应着 attention 对每一个过去的例子的重视程度。

OV 权重反应着输出和每一个输入例子(x,y)的关系,即 attention 如何通过组合上下文学习中的例子从而得到输出。

需要注意的是在回归问题里面,q 是一个输入,和 x 有一样的维度,输出和 y 有一样的维度。

课题组发现,QK 权重和 OV 权重都是分块的,并且 QK 权重的 X-X 分块和 OV 权重的 Y 分块最为重要。

也就是说,在回归问题里只需使用 q 和例子里的 x 比较得到注意力值(attention score)。

在输出时,只需要根据注意力值(attention score)来合并例子里的那些 y。

而通过利用数据的线性结构,他们发现 QK 权重和 OV 权重的分块结构,可以被梯度流算法保持。

更特别的是,因为多任务线性模型的参数 G 可以在某个基下分解,凭借此他们证明 QK 权重和 OV 权重也是可以被分解的。

这样一来,就可以把参数的梯度流化,简为奇异值的梯度流,这时就只需要分析奇异值的变化。

其中,总共有 H*(d_x + d_y)个奇异值,每个头的 QK 权重有 d_x 个奇异值,OV 权重有 d_y 个奇异值。

而 d_x 是 x 的维度,d_y 是 y 的维度,也就是多任务线性模型的任务数量。

并且,每个自注意力头的 OV 权重的奇异值,反应着自注意力头对于对应任务的重视程度。

随后,该团队开始分析这些奇异值的变化。他们发现自注意力头的任务分配基于“OV 权重–每个任务”的原则,来将最大的自注意力头分给对应的奇异值。

比如,第一个任务被分配给了第一个奇异值最大的自注意力头。

最终,在梯度流达到收敛之后,根据任务分配机制,每个自注意力头的 OV 权重只有唯一一个非零的奇异值。

至此,本次研究基本结束。日前,相关论文以《多头软 MAX 对情境学习的关注:出现性、收敛性和最佳性》(Training Dynamics of Multi-Head Softmax Attention for In-Context Learning: Emergence, Convergence, and Optimality)为题发在 arXiv[1]。

陈思宇和王天浩分别是第一作者和第三作者,杨卓然担任通讯作者。其中,王天浩将于 2025 年秋入职美国加州大学圣地亚哥分校。

不过,课题组仍然觉得自己对于 transformer 和上下文学习的理解还非常粗浅。

目前,他们只研究了一层自注意力模型。后续,他们希望能够研究多层的自注意力模型。

与此同时,目前他们只研究了线性模型。因此,他们也非常希望研究非线性的上下文学习问题。

此外,目前课题组给到 transformer 的输入,是独立同分布的(x,y)输入输出数据对,这里输入并没有任何复杂的前后依赖结构。

但是,实际用来训练 transformer 的数据都是文本数据,里面有复杂的依赖结构,针对此他们也将继续加以探索。

参考资料:

1.https://arxiv.org/pdf/2403.00993

排版:罗以

01/ 或将塑料转为小分子化合物,科学家实现聚苯乙烯的可控降解,降解产物分子量低于1000Da

02/ 北大团队发现类病毒颗粒新机制,将发展基于类病毒颗粒的RNA递送体系,助力研发新型疫苗

03/ 西交大团队实现自组装六方氮化硼纳米片制备大面积薄膜,兼具高探测率与低暗电流,可用于空间微光探测

04/ 光电催化制氢领域迎新突破:科学家开发氧化亚铜薄膜制备新方法,将载流子迁移率提升1个数量级

05/ 科学家提出GenAINet框架,能让工业机器人互换经验,让AI网络成为综合智能体


组织结构优化的依据是什么

组织结构优化的依据是: 随着信息时代和知识经济社会的来临, 要求企业具备更富有弹性扁平化的组织结构, 促使企业以更快和更灵活的方式满足市场和顾客不断变化的需要。 我国企业的组织结构大多为金字塔式的职能型层次式组织结构, 且机构臃肿, 人员繁多, 严重影响办事效率。 凡此种种显然严重地阻碍了组织的发展, 应当由新型的扁平小组中心型流程式组织替代。 我们应建立更富有弹性的流动型组织, 组织的成员可以来自不同的部门, 也可能是企业外部的专家、顾问, 实际上企业管理已超越企业本身固有框架。 ERP 系统正是要求企业建立富有弹性的扁平化组织结构, 对市场做出迅速敏捷的反应, 以适应不断变化的顾客需求和市场机遇, 从而建立企业的竞争优势。

pc蓝屏的代码原理是什么?

电脑蓝屏,又叫蓝屏死机(Blue Screen of Death,缩写为:BSoD),指的是微软Windows操作系统在无法从一个系统错误中恢复过来时所显示的屏幕图像。 原理分析人有的时候都会闹情绪,更何况是机器呢。 Windows有时候也会跟我们闹闹情绪,小则电脑蓝屏是“应用程序遇到问题需要关闭”,搞不好还可能给您脸色看看。 但是,这脸色可不是红的白的,而是一张“蓝脸”,您见过吗?首先,我们介绍以下三个重要的问题: 1.到底什么是“蓝脸”? 这里指的就是大家经常称之为“蓝屏”、“系统崩溃”之类的东西,外国人又叫它BSOD(Blue Screen of Death)。 从专业的角度讲,这一术语被定义为“是指当Microsoft Windows崩溃或停止执行(由于灾难性的错误或者内部条件阻止系统继续运行下去)时所显示的蓝色屏幕”。 而我们平常所说的“系统崩溃(system crash)”或者“内核错误(kernel error)”抑或“停止错误(Stop error)”的专业术语为“程序错误检查(Bug Check)”。 2.为什么一定要给您“蓝脸”? 一旦遇上系统蓝屏崩溃,大多数的人都会以为Windows不行了所以就瘫痪了,有点罪魁祸首是Windows或者Windows不够强悍、不够稳定的意思。 可是,Windows在默默地喊冤您知道吗?要知道,每当有内核模式设备驱动程序或者子系统引发了一个非法异常,Windows就会面临这个艰难的抉择,虽然Windows最终还是选择了崩溃,但是这并不代表它就不能够忽略该异常,让设备驱动程序或者子系统继续往下执行。 Windows之所以要选择“亡我”,是因为它不知道该错误是否能被隔离出来从而不伤害系统的其它程序与数据,或者该组件将来是否能够恢复正常,而且,Windows深知,这个异常更有可能来电脑蓝屏源于更深层的问题,比如由于内存的常规破坏(General Corruption),或者由于硬件设备不能正常工作。 允许系统继续运行可能导致更多的异常,而且,存储在磁盘或其他外设中的数据可能也会遭受破坏。 Windows意识到,这样做的风险太大了,为了您的程序、数据安全与完整,为了将您的损失在第一时间减小至最低,Windows于是忍痛做出了自我牺牲…… 3.怎样给出“蓝脸”? 当系统检测到引发崩溃的致命错误时,Windows自己执行崩溃函数“KeBugCheckEx”。 该函数接受一个停止代码(STOP Code,也称为错误检查码“Bug Check Code”),以及四个根据停止代码来解释的参数(下文中会有图例)。 在调用KeBugCheckEx之后,首先该系统所有处理器上的所有中断将被屏蔽,然后系统将显示器切换到低分辨率的VGA图形模式(因为这是所有Windows平台显卡均支持的通用模式),绘制一个蓝色背景,然后显示此停止代码,并且后面紧跟一些对用户诊断错误有帮助的关键信息。 最后,KeBugCheckEx调用所有已注册的设备驱动程序错误检查回调函数(这种回调函数通过调用KeRegisterBugCheckCallback函数来注册),从而让这些驱动程序停止运行它们所支配的设备(有系统数据结构已经被破坏得太严重以至于蓝屏都显示不出来的可能性)。 技术团队:网界网论坛

管理激励理论

激励理论是行为科学中用于处理需要、动机、目标和行为四者之间关系的核心理论。 行为科学认为,人的动机来自需要,由需要确定人们的行为目标,激励则作用于人内心活动,激发、驱动和强化人的行为。 激励理论是业绩评价理论的重要依据,它说明了为什么业绩评价能够促进组织业绩的提高,以及什么样的业绩评价机制才能够促进业绩的提高。 各学派的激励理论激励理论是关于如何满足人的各种需要、调动人的积极性的原则和方法的概括总结。 激励的目的在于激发人的正确行为动机,调动人的积极性和创造性,以充分发挥人的智力效应,做出最大成绩。 自从本世纪二三十年代以来,国外许多管理学家、心理学家和社会学家结合现代管理的实践,提出了许多激励理论。 这些理论按照形成时间及其所研究的侧面不同,可分为行为主义激励理论、认知派激励理论和综合型激励理论3大类。 行为主义激励理论本世纪20年代,美国风行一种行为主义的心理学理论,其创始人为华生。 这个理论认为,管理过程的实质是激励,通过激励手段,诱发人的行为。 在“刺激—反应”这种理论的指导下,激励者的任务就是去选择一套适当的刺激,即激励手段,以引起被激励者相应的反应标准和定型的活动。 新行为主义者斯金纳在后来又提出了操作性条件反射理论。 这个理论认为,激励人的主要手段不能仅仅靠刺激变量,还要考虑到中间变量,即人的主观因素的存在。 具体说来,在激励手段中除了考虑金钱这一刺激因素外,还要考虑到劳动者的主观因素的需要。 根据新行为主义理论,激励手段的内容应从社会心理观点出发,深入分析人们的物质需要和精神需要,并使个体需要的满足与组织目标的实现一致化。 新行为主义理论强调,人们的行为不仅取决于刺激的感知,而且也决定于行为的结果。 当行为的结果有利于个人时,这种行为就会重复出现而起着强化激励作用。 如果行为的结果对个人不利,这一行为就会削弱或消失。 所以在教育中运用肯定、表扬、奖赏或否定、批评、惩罚等强化手段,可以对学习者的行为进行定向控制或改变,以引导到预期的最佳状态。 认知派激励理论行为简单地看成人的神经系统对客观刺激的机械反应,这不符合人的心理活动的客观规律性。 对于人的行为的发生和发展,要充分考虑到人的内在因素,诸如思想意识、兴趣、价值和需要等。 因此,这些理论都着重研究人的需要的内容和结构,以及如何推动人们的行为。 认知派激励理论还强调,激励的目的是要把消极行为转化为积极行为,以达到组织的预定目标,取得更好的效益。 因此,在激励过程中还应该重点研究如何改造和转化人的行为。 属于这一类型的理论还有斯金纳的操作条件反射理论和挫折理论等。 这些理论认为,人的行为是外部环境刺激和内部思想认识相互作用的结果。 所以,只有改变外部环境刺激与改变内部思想认识相结合,才能达到改变人的行为的目的。 综合型激励理论行为主义激励理论强调外在激励的重要性,而认知派激励理论强调的是内在激励的重要性。 综合性激励理论则是这两类理论的综合、概括和发展,它为解决调动人的积极性问题指出了更为有效的途径。 心理学家勒温提出的场动力理论是最早期的综合型激励理论。 这个理论强调,对于人的行为发展来说,先是个人与环境相互作用的结果。 外界环境的刺激实际上只是一种导火线,而人的需要则是一种内部的驱动力,人的行为方向决定于内部系统的需要的强度与外部引线之间的相互关系。 如果内部需要不强烈,那么,再强的引线也没有多大的意义。 波特和劳勒于1968年提出了新的综合型激励模式,将行为主义的外在激励和认知派的内在激励综合起来。 在这个模式中含有努力、绩效、个体品质和能力、个体知觉、内部激励、外部激励和满足等变量。 在这个模式中,波特与劳勒把激励过程看成外部刺激、个体内部条件、行为表现、行为结果相互作用的统一过程。 一般人都认为,有了满足才有绩效。 而他们则强调,先有绩效才能获得满足,奖励是以绩效为前提的,人们对绩效与奖励的满足程度反过来又影响以后的激励价值。 人们对某一作业的努力程度,是由完成该作业时所获得的激励价值和个人感到做出努力后可能获得奖励的期望概率所决定的。 很显然,对个体的激励价值愈高,其期望概率愈高,则他完成作业的努力程度也愈大。 同时,人们活动的结果既依赖于个人的努力程度,也依赖于个体的品质、能力以及个体对自己工作作用的知觉。 波特和劳勒的激励模式还进一步分析了个人对工作的满足与活动结果的相互关系。 他们指出,对工作的满足依赖于所获得的激励同期望结果的一致性。 如果激励等于或者大于期望所获得的结果,那么个体便会感到满足。 如果激励和劳动结果之间的联系减弱,那么人们就会丧失信心。 主要的激励理论有三大类,分别为内容型激励的理论、过程型激励理论和行为修正型激励理论。

  • 声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
  • 本文地址:https://srwj168.com.cn/keji312/3273.html
iOS 出厂设置后安装前 系统谁更安全 App 安卓和 实测
流量大队全出局 关注度暴跌!NBA人气球星 收视率下降 名博