32K性能合格的都不多 英伟达新研究 上下文长度虚标严重

无情戳穿“长上下文”大模型的虚标现象——

英伟达新研究发现,包括GPT-4在内的10个大模型,生成达到128k甚至1M上下文长度的都有。

但一番考验下来,在新指标“有效上下文”上缩水严重,能达到的都不多。

新基准名为,包含 检索、多跳追踪、聚合、问答 四大类共13项任务。RULER定义了“有效上下文长度”,即模型能保持与Llama-7B基线在4K长度下同等性能的最大长度。

这项研究被学者评价为“非常有洞察力”。

不少网友看到这项新研究后,也非常想看到上下文长度王者玩家Claude和Gemini的挑战结果。(论文中并未覆盖)

一起来看英伟达是如何定义“有效上下文”指标的。

测试任务更多、更难

要评测大模型的长文本理解能力,得先选个好标准,现圈内流行的ZeroSCROLLS、L-Eval、LongBench、InfiniteBench等,要么仅评估了模型检索能力,要么受限于先验知识的干扰。

所以英伟达剔除的RULER方法,一句话概括就是 “确保评估侧重于模型处理和理解长上下文的能力,而不是从训练数据中回忆信息的能力”

RULER的评测数据减少了对“参数化知识”的依赖,也就是大模型在训练过程中已经编码到自身参数里的知识。

具体来说,RULER基准扩展了流行的“大海捞针”测试,新增四大类任务。

检索 方面,从大海捞针标准的单针检索任务出发,又加入了如下新类型:

除了升级版检索,RULER还增加了 多跳追踪 (Multi-hop Tracing)挑战。

具体来说,研究人员提出了 变量追踪 (VT),模拟了指代消解(coreference resolution)的最小任务,要求模型追踪文本中变量的赋值链,即使这些赋值在文本中是非连续的。

挑战第三关是 聚合 (Aggregation),包括:

挑战第四关是 问答任务 (QA),在现有阅读理解数据集(如SQuAD)的基础上,插入大量干扰段落,考查长序列QA能力。

各模型上下文实际有多长?

实验阶段,如开头所述,研究人员评测了10个声称支持长上下文的语言模型,包括GPT-4,以及9个开源模型开源模型Command-R、Yi-34B、Mixtral(8x7B)、Mixtral(7B)、ChatGLM、LWM、Together、LongChat、LongAlpaca。

这些模型参数规模范围从 6B到采用MoE架构的8x7B 不等,最大上下文长度从 32K到1M 不等。

在RULER基准测试中,对每个模型评测了13个不同的任务,覆盖4个任务类别,难度简单到复杂的都有。对每项任务,生成500个测试样例,输入长度从4K-128K共6个等级(4K、8K、16K、32K、64K、128K)。

为了防止模型拒绝回答问题,输入被附加了answer prefix,并基于recall-based准确性来检查目标输出的存在。

研究人员还定义了“有效上下文长度”指标,即模型在该长度下能保持与基线Llama-7B在4K长度时的同等性能水平。

为了更细致的模型比较,使用了加权平均分数(Weighted Average, wAvg)作为综合指标,对不同长度下的性能进行加权平均。采用了两种加权方案:

来看结果。

普通大海捞针和密码检索测试看不出差距,几乎所有模型在其声称的上下文长度范围内均取得满分。

而使用RULER,尽管很多模型声称能够处理32K token或更长的上下文,但除了Mixtral外,没有模型在其声称的长度上保持超过Llama2-7B基线的性能。

其他结果如下,总的来说,GPT-4在4K长度下表现最佳,并且在上下文扩展到128K时显示出最小的性能下降(15.4%)。

开源模型中排名前三的是Command-R、Yi-34B和Mixtral,它们都使用了较大的基频RoPE,并且比其它模型具有更多的参数。

此外,研究人员还对Yi-34B-200K模型在增加输入长度(高达256K)和更复杂任务上的表现进行了深入分析,以理解任务配置和失败模式对RULER的影响。

他们还分析了训练上下文长度、模型大小和架构对模型性能的影响,发现更大的上下文训练通常会带来更好的性能,但对长序列的排名可能不一致;模型大小的增加对长上下文建模有显著好处;非Transformer架构(如RWKV和Mamba)在RULER上的表现显著落后于基于Transformer的Llama2-7B。

更多细节,感兴趣的家银们可以查看原论文。

论文链接:https://arxiv.org/abs/2404.06654

参考链接:https://twitter.com/rohanpaul_ai/status/1797231094195962266


安装英伟达显卡驱动的时候错误提示怎么回事

可能是安装的显卡驱动版本和系统不匹配导致的,更换别的版本重新安装看下。 1、显卡驱动没有哪个版本最好的说法,也不是最新的就是最好的。 2、如果显卡的驱动正常,不影响电脑的正常使用,可以不选择更高版本的显卡驱动进行更新。 3、因为高版本的驱动不一定完全适合当前使用的显卡,即使是官方提供的显卡驱动,也有可能出现更新驱动之后导致电脑蓝屏、死机等现象。 4、如果显卡性能比之前下降,或者性能不稳定的话,可以尝试更新显卡驱动,如果新版本的驱动适合当前显卡,和系统兼容的话,可以更好的发挥显卡性能。

显卡驱动更新后很卡

从现象看,图标模糊说明分辨率设置都出现问题这种情况驱动更新已经失败了。 你现在可以打开设备管理器右击显示适配器然后点击驱动程序选项卡点击回滚驱动程序还是不行就先卸载当前驱动然后重新安装老版本驱动。

关于NVIDIA GT330M 显卡的问题

这是一款笔记本显卡,GT330m是显卡的芯片型号,显卡的频率,渲染管线,带宽全由它决定,因为是笔记本上使用的,所以设计的时候考虑了低功耗和低散热,相对来说性能比台式机的同等级显卡就要弱很多。 台式机无法使用笔记本的显卡。 显存的大小取决于显卡电路板上级联的存储颗粒的大小和多少。 放上多少就有多大,但是因为显卡芯片的性能有限,太多了也是浪费。 对于330M来说,512M就很合适了,1G的必要性不大 在台式机中看到?只是看到配置单还是在系统中确切验证为330m?关于330M非用在笔记本上的情况我只见过一个,就是在一体机上,有330M的小刀卡,非常小的显卡。 如果出现正常平台的台式机上,这个就很诡异了,难道有人制造这种歪歪卡???

  • 声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
  • 本文地址:https://www.srwj168.com.cn/keji312/19486.html
个性与实用兼具 奥迪A3 allstreet新车图解
我是困而知之 我不依靠什么天才 家书中的李可染