用神经架构搜索给LLM瘦身 模型变小 准确度有时反而更高

机器之心报道

编辑:Panda

用神经架构搜索给 LLM 瘦身,同等准确度可让 LLaMA2-7B 模型大小降 2 倍。

大型语言模型(LLM)的一个主要特点是「大」,也因此其训练和部署成本都相当高,如何在保证 LLM 准确度的同时让其变小就成了非常重要且有价值的研究课题。

对此,研究社区已经提出了多种多样的方法,比如剪枝、稀疏化、量化等,它们的效果也各不一样。

近日,Intel Labs 发布了一项研究成果,宣称可使用神经架构搜索(NAS)高效地为 LLM 「瘦身」。他们基于 LLaMA2-7B 模型的实验表明,该技术不仅能降低模型大小,有时甚至还能让模型的准确度获得提升!

论文标题:LLaMA-NAS: Efficient Neural Architecture Search for Large Language Models

论文地址:https://arxiv.org/pdf/2405.18377

神经架构搜索(NAS)是一种让算法根据样本集自动设计神经网络架构的技术。之前曾被用来探索各式的新型神经网络架构,甚至可能发现人类从未构建过的网络架构,比如谷歌就曾通过 NAS 发现了一个新的特征金字塔架构,参阅《谷歌大脑提出 NAS-FPN:这是一种学会自动架构搜索的特征金字塔网络》

Intel Labs 的这个研究团队猜想:也许可以通过神经架构搜索(NAS)来降低模型的大小和复杂性。单次 NAS 方法往往需要一次训练一个超级网络(super-network)并允许使用权重共享原理进行子网络采样。但是,从头开始训练这些超级网络成本高昂,因此 LLM 领域少有探索。InstaTune 等技术则是利用现成的预训练权重,在微调阶段创造一个超级网络。

为了缓解与 LLM 相关的大小和复杂度问题,该团队做了一番研究探索:

该团队首次高效地使用单次 NAS 来降低 LLM 的大小和计算复杂度。他们的研究表明:对于某些标准的基准评测任务而言,LLaMA2-7B 庞大且复杂得没有必要。

他们发现,一种使用单次 NAS 的 LLM 压缩方法不仅性能优于剪枝和稀疏化技术,而且还无需剪枝和稀疏化通常需要的额外恢复微调步骤。

他们分析了网络参数,以便更好地理解新方法发现的网络的架构特征。他们证明,没有一套单一的架构启发式方法可以应用于多个标准基准测试任务。

他们提出了一种框架,无需专门的软件和或硬件就能直接用于产生压缩版 LLM。他们还发现,使用不做任何修改的标准版量化技术就能进一步压缩这些网络。

方法

搜索方法

为了让大型语言模型(LLM)适应多样化的硬件平台和性能要求,该团队的选择是使用 InstaTune 方法,这是一种全新的单次神经架构搜索(NAS)范式,参阅论文《Instatune: Instantaneous neural architecture search during fine-tuning》。

InstaTune 对传统的微调过程进行了扩展,其做法是让模型的架构具有弹性,使其可以探索固定结构之外更宽广的设计空间。这种灵活性让模型可以适应不同的任务、数据集和计算资源。InstaTune 增强 NAS 的方式是利用已有的模型权重,从而无需再从头开始训练超级网络。通过将 NAS 过程嵌入到微调阶段,InstaTune 能在节省计算资源的同时确保派生出的子网络针对目标任务进行了专门优化,而不是针对预训练目标进行了优化。

在这项研究中,研究团队使用 InstaTune 中提出的技术和 Alpaca 数据集对预训练后的 LLaMA2-7B 模型进行了微调,得到了一个超级网络和一个搜索空间 —— 它们可用于搜索过程。

但是,不同于 InstaTune,该团队并未在 LLaMA2-7B 上执行基于强大教师模型或超级网络的知识蒸馏,原因则主要是计算和内存的限制。

此外,虽然 InstaTune 会在同一次迭代中为超级网络和随机采样的子网络同时计算损失,但该团队为了降低内存使用量,选择的做法是交替地为超级网络和随机采样的子网络计算损失。在这个具体案例中,超级网络就是基础 LLaMA2-7B 模型,没有任何额外的层,MLP 模块的中间层大小也没有扩展。

遵循 InstaTune 的方法,该团队也采用了一种进化搜索框架来在多目标设置中对架构进行优化,从而在给定下游任务上对模型大小和准确度进行优化。

具体来说,他们采用的算法是轻量迭代式神经架构搜索(LINAS)算法。LINAS 组合了 NSGA-II 搜索和网络性能预测器,可以高效地找到帕累托最优的网络配置。它能在真实数据上迭代式地评估子网络,从而为性能预测器提供信息,然后它们就能预测大量子网络的性能。之后,将最有潜力的子网络选出来,再在下一轮迭代中进行评估。这个过程持续进行,直到在真实数据上完成一定的评估次数。

搜索空间

如前所述,执行最优子网络搜索的算法是 LINAS。使用 InstaTune 在 Alpaca 数据集上对预训练 LLaMA2-7B 模型进行微调之后,该团队定义了一组允许参数值,以便在搜索最优子网络时使用。这个搜索空间的创建方式是改变整个网络的层数以及每个 MLP 模块的中间大小。

表 1 给出了这些参数值,最终得到的搜索空间大小约为 1.3 × 10^10。

评估实验和结果

任务

该团队选用了以下任务来评估新方法的表现:

AI2 推理挑战(ARC)

大规模多任务语言理解(MMLU)

TruthfulQA

WinoGrande

搜索分析

如前所述,该团队使用了 LINAS 算法来搜索 LLaMA2-7B 的最优子网络,使用的搜索空间见表 1。每个任务的搜索过程都执行 250 次评估。

AI2 推理挑战

针对 AI2 推理挑战(ARC)任务,是在模型大小 / ARC-c 准确度和模型大小 / ARC-e 准确度目标空间中执行的搜索。图 1 展示了在这两个目标空间中的帕累托边界。

执行完搜索后,该团队找到了一些能提供更高准确度和 / 或更小规模的子网络架构。比如某些子网络的 ARC-c 准确度比预训练的 LLaMA2-7B 更高,如图中红点所示。举例来说:一个子网络的准确度与预训练 LLaMA2-7B 网络一样,都规模却小 1.1 倍;另一个子网络的大小一样,但准确度高 1.9%。

大规模多任务语言理解

该团队也使用表 1 中的参数搜索了在大规模多任务语言理解(MMLU)任务上的帕累托最优子网络。该搜索的目标空间是模型大小 / MMLU 准确度。此外,为了了解在推理速度方面的增益,该团队还评估了搜索得到的帕累托最优子网络的吞吐量。

图 2 展示了在模型大小 / MMLU 准确度以及吞吐量 / MMLU 准确度这两个目标空间中的帕累托边界。

可以看到,在这些帕累托最优子网络中,某些架构在模型大小和吞吐量这两方面都有优势。比如某些子网络的 MMLU 准确度比预训练的 LLaMA2-7B 更高,如图中红点所示。在一个案例中,子网络的准确度比预训练 LLaMA2-7B 高 1.1%,同时又比它小 1.5 倍,快 1.3 倍。

TruthfulQA

对于 TruthfulQA 任务,该团队发现对于 TruthfulQA MC1,预训练 LLaMA2-7B 明显是过度参数化了。如图 3 所示,新方法发现的许多网络架构都明显优于预训练 LLaMA2-7B,同时大小也小得多。

WinoGrande

在 WinoGrande 上得到的结论与在 ARC-c 上得到的结果很相近。图 4 给出了在模型大小 / WinoGrande 搜索空间中的帕累托边界。

搜索找到了一些有更高准确度和 / 或更小 guim 的子网络架构。举例来说:一个子网络的准确度与预训练 LLaMA2-7B 网络一样,都规模却小 1.1 倍;另一个子网络的大小一样,但准确度高 1.4%。

标准基准性能总结

表 2 给出了各任务的一些比较突出的子网络,并总结了它们的标准基准性能。

剪枝和稀疏化性能比较

在通过新方法找到帕累托最优子网络之后,该团队选出了那些规模同等或更小的子网络(它们是通过剪枝或稀疏化得到的),并评估了它们在不同任务上的性能。然后,该团队比较了它们与 LLM-Pruner 和 SliceGPT 的标准基准性能,结果见表 3 和 4。

在表 3 中,ARC-c 和 MMLU 的某些子网络的准确度高于新方法找到的更大子网络。

原因是网络架构中不同中间大小的位置可能不会影响模型大小,但会影响准确度。因此,较小的子网络也可能取得更高的准确度,因为它选择了更好的中间大小。对于新方法找到的大小相近的子网络,在每个任务上的准确度均高于 LLM-Pruner 和 SliceGPT。

量化

为了进一步提升新方法找到的帕累托最优子网络的性能,该团队使用了定点(INT8)量化,使用的工具是 bitsandbytes。具体来说,首先量化搜索找到的帕累托最优子网络,然后在模型大小 / 准确度目标空间中再次评估它们。解码器层中的所有线性运算都被量化到了 INT8,而剩余层(比如嵌入层)依然是 FP16。

图 5 展示了量化前后在模型大小 / 准确度目标空间中的帕累托边界。

在为帕累托最优子网络使用了定点(INT8)量化之后,在目标空间中的帕累托边界「向左移了」。很显然,量化对准确度的影响很小,但却能显著降低模型大小。事实上,取得了高 1.1% MMLU 准确度且模型大小降低了 1.5 倍的非量化子网络在量化后不仅维持着原来的准确度,而且大小还降低了 2.5 倍。

表 5 比较了表 2 中非量化版子网络与其定点(INT8)量化后的版本。

可以看到,对于 MMLU,相比于非量化版的预训练 LLaMA2-7B 网络,量化版子网络的准确度几乎没有损失,而模型大小却分别降低了 2.0 和 2.5 倍。对于 ARC-e,量化版网络的准确度还比非量化版更高一点。而对于 WinoGrande,量化版子网络的大小不仅分别降低了 1.8 和 2.0 倍,同时还取得了 0.2% 的少量准确度增益。

搜索空间分析

该团队最后分析了层数和中间大小方面的性质。在层数方面,图 6 展示了在不同的任务上,一个被选择的网络对于不同的准确度百分位数具有层数 l ∈ {24, 28, 32} 的概率。

可以看到,层数越多,准确度往往就越高。但是,对于 ARC-c、MMLU 和 TruthfulQA 等某些任务而言,情况却并非如此,这说明 LLaMA2-7B 在这些任务有过度参数化的现象。

在中间大小方面,图 7 给出了在 ARC-c 任务上,选择出的所有 32 层网络架构,一个特定层的中间大小为 s ∈ {5504, 11008} 的概率。

可以看到,取得高 ARC-c 准确度的网络只在某些层有较高概率选择 5504 的中间大小。

具体来说,在 3、4、18、25、26、28、29 和 32 层,中间大小 s = 5504 的概率明显高于 s = 11008。评估 3、4、18、25、26、28、29 和 32 层的中间大小为 s = 5504 且其它层的中间大小为 s = 11008 的网络架构,得到的 ARC-c 准确度为 45.9%,与预训练 LLaMA2-7B 的准确度相当,从而验证了图 7 的结果。

另外,该团队还分析了在 MMLU 任务上评估的 24 层网络架构选择以及在 WinoGrande 任务上评估的 32 层网络架构选择,结果见图 8 和 9。

总体而言,可以得出结论:对于某些任务来说,没有必要使用完整的网络大小。

而这些结果的差异又表明,并不存在一种适用于所有任务的单一架构启发式方法。


减肥水果有哪些 推荐12种最刮油的减肥水果

1、甜橙甜橙维生素C多,纤维度多,热量低,甚至可以替代蛋糕和曲奇。 喜欢吃甜食的女生可以吃甜橙来满足对甜食的欲望。 甜橙高纤维素可有助于排便,排出身体的废物和有害物质,清理肠胃。 甜橙果冻2、番石榴番石榴其实一直都是减肥的好帮手,但是却很少人知道。 番石榴的热量低,膳食纤维丰富,饱腹感很强,是减肥的最佳选择。 番石榴可以榨汁,这样堆积减少囤积在体内的脂肪,促进新陈代谢,更有效呢3、梨生吃梨,可以达到迅速减肥的理想效果。 梨中含有丰富的纤维素和多种维生素,生吃一个清脆而汁水丰富的梨,不仅可以增加人们的饱腹感;由于一个梨含有的热量仅是50卡路里,还可以满足减肥的目的哦。 4、香蕉香蕉燕麦牛奶香蕉富含膳食纤维,可以刺激肠胃的蠕动,帮助排泄。 如果什么都不吃,只吃香蕉沾蜂蜜,热量远比正餐低,自然也就瘦下来了。 但是,这样地急速减重,身体往往因为没做好调适而产生不良的反应。 若是长期靠香蕉为生,身体缺乏蛋白质、矿物质等各项营养成份,慢慢地你的身体就会发出危险警报。 5、葡萄柚葡萄柚富含维生素C,糖份也不高,如果以吃一颗葡萄柚来代替一餐,热量当然低,假使其它餐的热量也控制得宜,一段时间后自然瘦下来。 不过如果你的体质较弱,最好先吃几片高纤苏打饼干,防止因为空腹可能受不了的酸度引发的肠胃疼痛。 6、青苹果青色水果:青苹果减肥原理:苹果作为水果之王,它的减肥功效自然也不在话下了。 苹果中含有丰富的维生素,能促进身体的消化吸收。 避免热量转化为脂肪在体内堆积。 而且苹果具有非常好的饱腹感,这样可以减少其他热量的摄入。 总之,像苹果这么好的水果美眉们可以多吃。 青苹果沙拉秋季是出青苹果的季节,多吃苹果不仅可以美容瘦身,还可以防治疾病。 吃苹果能减少血液中的胆固醇含量,可避免形成胆结石,对高血压有一定的辅助治疗作用。 7、橙色水果:木瓜减肥原理:木瓜里内含木瓜酵素,这些木瓜酵素不仅可分解蛋白质、糖类,更可分解脂肪通过分解脂肪可以去除赘肉,从而减少人体脂肪的堆积。 而且现代医学发现,木瓜中含有一种酵素,能消化蛋白质,可以帮助人体对食物进行消化和吸收,长期食用还有利于身体健康呢。 多吃木瓜不仅可以丰胸还可以减肥,据说郑秀文、林熙蕾、徐怀钰等众多美女明星都是通过食用木瓜来丰胸和减肥的。 木瓜雪耳羹8、绿色水果:猕猴桃减肥原理:奇异果的价格在水果当中是比较昂贵的,但是奇异果的营养也很高呢。 奇异果被称为维生素C之王,热量低,糖度低,脂肪含量低,且食物纤维的含量丰富,中医认为,猕猴桃是辅治肥胖症的果类。 同时由于膳食纤维高,因此有非常强的肠胃蠕动能力。 奇异果还是夜猫族维持营养和体力的最佳伴侣哦。 猕猴桃富含钙、磷、铁、钾等多种矿物元素,并且含有丰富的维生素。 蛋白质含量为每百克果肉含1.6克,是营养丰富,含水量大,产热量低的果品。 并素有“VC果王”的美称。 9、红色水果:番茄减肥原理:番茄含丰富的果胶等食物纤维,让人有饱足感。 有助消除便秘及促进新陈代谢,对减肥相当有帮助。 番茄鱼片番茄含有丰富的维他命C、E、维他命B群、胡萝卜素、铁以及钙等15种左右的矿物质。 能补充一个成人一天的维他命C需要。 10、菠萝菠萝富含维它命B1,能促进新陈代谢,消除疲劳感,丰富的膳食纤维,让消化更顺畅。 爱吃菠萝的话,可以在饭后吃一些,切勿在胃袋空空的时候食用,否则很容易被酵素伤害。 菠萝咕咾肉11、枇杷枇杷富含粗纤维及矿物元素。 每百克枇杷肉中含0.4克蛋白质、6.6克碳水化合物,并且含有维生素b1和维生素c,是很有效的减肥果品。 12、蓝色水果:蓝莓减肥原理:蓝莓热量低,含丰富果酸,专家称对减下半身很有帮助。 蓝莓是保护视力的最佳水果,富含大量超级的抗氧化物俗称OPC的花青素,被国外专家称为“抗氧化之王”蓝莓果实中还含有尼克酸、SOD、黄酮等特殊成分,具有良好的防脑神经老化、强心、抗癌等保健作用。 蓝莓的减肥吃法蓝莓山药1、直接食用。 食用蓝莓的最佳时间可以是在早餐的时候当做一种早餐来食用,通常可以搭配起司三明治来食用。 在午餐、晚餐半个小时之后也是食用蓝莓的最佳时间,这时候吃蓝莓,不但能够为身体提供各种营养,还能促进体内新陈代谢的速度。 2、将蓝莓榨汁,做成蓝莓汁来饮用。 这样也同样有减肥瘦身的功效。 但是蓝莓汁的功效却往往比不上生吃蓝莓,因为蓝莓的表皮也是有丰富的营养物质,同样可以帮助促进新陈代谢。

人体肠道长度

小肠分布在肚脐周围,然后是大肠,而盲肠位于肚脐向右一个拳头,然后再下一个拳头。 盲肠接到升结肠,由右下腹部往上走,在上腹部向左横向腹腔(横结肠),然后,在腹腔左上不向下走(降结肠),接到乙状结肠(左下腹部),直肠到肛门。 如果肚脐周围痛,可能是肠炎,右下腹部痛可能是盲肠炎,如果想帮助排便,可以按左下腹部乙状结肠,然后在由右下腹部,顺时针按摩结肠。 ----------------------------------------------------------------------- 食物从口腔进入消化道,会用24-72小时走完长达9米的旅程。 每一厘米的消化管道都扮演重要的角色,确保能吸收优质的养分,肠道还有无数细菌,帮我们捍卫肠道健康。 食物的消化作用是有口腔开始的,当食物进入空腔,牙齿咀嚼食物,唾液腺分泌大量口水,润滑食物,口水里含有各种消化酶素,开始做出初步的消化。 吃饭细嚼慢咽,可以减轻肠胃负担。 胃会分泌胃液和胃酸,胃液中含有很多能在胃酸中作用的消化酵素,将食物消化为食糜。 胃酸除了帮助胃液酵素作用外,还能消灭很多随着食物进入身体的细菌。 是一个食物加工储存槽,饱餐一顿后,胃会消化2-4小时,慢慢地将酸性的食糜,在胃下端调成中性后,分批送入小肠。 小肠全长约6米,在肚子里收缩成2-3米,小肠占据了腹部大部分空间。 小肠分为十二指肠、空肠及回肠。 十二指肠长度相当于十二根手指的宽度,肝脏制造的胆汁和胰脏制造的胰液,都送入十二指肠。 胆汁和胰液能帮助脂肪被消化。 空肠长约2.5米,消化作用大部分在这里进行,回肠大约3.5米,负责吸收大部分的养分。 小肠内分布的绒毛,总表面积相当于1.5个网球场大小,其上分布的微血管、乳糜管等,将吸收进来的养分运送到全身。 大肠长约1.6米,分为盲肠、结肠和直肠,最后连接到肛门。 大肠内壁光滑没有绒毛组织,而是形成个别的带状结构,吸收水分,分泌黏液,润滑便便通行。 大肠最大的特征是内部住满了上千种肠道菌,数量远远大于小肠的,有益菌、坏菌和中性菌,它们靠食物残渣生存,制造各种养分或毒素,对健康影响极大。 --------------------------------------------------------------- 肠道不仅是消化器官,也是大脑以外最为复杂的神经系统,可称得上第二大脑,或腹脑,它不听意志的指挥。 人体消化道中,口腔、食道及部分胃的功能受大脑控制,而整个肠道则完全由腹脑负责,到最后的肛门,才又回到大脑控制。

如何减肥呢?

用榨汁机弄果蔬汁喝 很有效 我试过用自己喜欢的水果和蔬菜搭配在一起榨着喝只是有的味道不太好比如 黄瓜和苦瓜 番茄 猕猴桃 胡萝卜等等都可以就看你喜欢喝什么的里面还有丰富的维生素另外还可以加点枸杞枸杞也有减肥功效这虽然不是最快的减肥方法但是很健康值得一试!

  • 声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
  • 本文地址:https://m.srwj168.com.cn/keji312/29986.html
突发!又有董事长被留置
暂无