32K性能合格的都不多上下文长度虚标严重英伟达新研究

作者： 2024年06月03日焦点浏览

无情戳穿“长上下文”大模型的虚标现象——

英伟达新研究发现，包括GPT-4在内的10个大模型，生成达到128k甚至1M上下文长度的都有。

但一番考验下来，在新指标“有效上下文”上缩水严重，能达到的都不多。

新基准名为，包含 检索、多跳追踪、聚合、问答 四大类共13项任务。RULER定义了“有效上下文长度”，即模型能保持与Llama-7B基线在4K长度下同等性能的最大长度。

这项研究被学者评价为“非常有洞察力”。

不少网友看到这项新研究后，也非常想看到上下文长度王者玩家Claude和Gemini的挑战结果。（论文中并未覆盖）

一起来看英伟达是如何定义“有效上下文”指标的。

测试任务更多、更难

要评测大模型的长文本理解能力，得先选个好标准，现圈内流行的ZeroSCROLLS、L-Eval、LongBench、InfiniteBench等，要么仅评估了模型检索能力，要么受限于先验知识的干扰。

所以英伟达剔除的RULER方法，一句话概括就是 “确保评估侧重于模型处理和理解长上下文的能力，而不是从训练数据中回忆信息的能力” 。

RULER的评测数据减少了对“参数化知识”的依赖，也就是大模型在训练过程中已经编码到自身参数里的知识。

具体来说，RULER基准扩展了流行的“大海捞针”测试，新增四大类任务。

检索方面，从大海捞针标准的单针检索任务出发，又加入了如下新类型：

除了升级版检索，RULER还增加了 多跳追踪 （Multi-hop Tracing）挑战。

具体来说，研究人员提出了 变量追踪 （VT），模拟了指代消解（coreference resolution）的最小任务，要求模型追踪文本中变量的赋值链，即使这些赋值在文本中是非连续的。

挑战第三关是聚合（Aggregation），包括：

挑战第四关是 问答任务 （QA），在现有阅读理解数据集（如SQuAD）的基础上，插入大量干扰段落，考查长序列QA能力。

各模型上下文实际有多长？

实验阶段，如开头所述，研究人员评测了10个声称支持长上下文的语言模型，包括GPT-4，以及9个开源模型开源模型Command-R、Yi-34B、Mixtral（8x7B）、Mixtral（7B）、ChatGLM、LWM、Together、LongChat、LongAlpaca。

这些模型参数规模范围从 6B到采用MoE架构的8x7B 不等，最大上下文长度从 32K到1M 不等。

在RULER基准测试中，对每个模型评测了13个不同的任务，覆盖4个任务类别，难度简单到复杂的都有。对每项任务，生成500个测试样例，输入长度从4K-128K共6个等级（4K、8K、16K、32K、64K、128K）。

为了防止模型拒绝回答问题，输入被附加了answer prefix，并基于recall-based准确性来检查目标输出的存在。

研究人员还定义了“有效上下文长度”指标，即模型在该长度下能保持与基线Llama-7B在4K长度时的同等性能水平。

为了更细致的模型比较，使用了加权平均分数（Weighted Average, wAvg）作为综合指标，对不同长度下的性能进行加权平均。采用了两种加权方案：

来看结果。

普通大海捞针和密码检索测试看不出差距，几乎所有模型在其声称的上下文长度范围内均取得满分。

而使用RULER，尽管很多模型声称能够处理32K token或更长的上下文，但除了Mixtral外，没有模型在其声称的长度上保持超过Llama2-7B基线的性能。

其他结果如下，总的来说，GPT-4在4K长度下表现最佳，并且在上下文扩展到128K时显示出最小的性能下降（15.4%）。

开源模型中排名前三的是Command-R、Yi-34B和Mixtral，它们都使用了较大的基频RoPE，并且比其它模型具有更多的参数。

此外，研究人员还对Yi-34B-200K模型在增加输入长度（高达256K）和更复杂任务上的表现进行了深入分析，以理解任务配置和失败模式对RULER的影响。

他们还分析了训练上下文长度、模型大小和架构对模型性能的影响，发现更大的上下文训练通常会带来更好的性能，但对长序列的排名可能不一致；模型大小的增加对长上下文建模有显著好处；非Transformer架构（如RWKV和Mamba）在RULER上的表现显著落后于基于Transformer的Llama2-7B。

更多细节，感兴趣的家银们可以查看原论文。

论文链接：https://arxiv.org/abs/2404.06654

参考链接：https://twitter.com/rohanpaul_ai/status/1797231094195962266

GPU-Z检测英伟达显卡的显存频率要乘2才是真实的结果？

楼上的朋友们都回答得不准确。显存频率有物理时钟频率和等效时钟频率。对于DDR/DDR2/DDR3的显存来说，等效时钟频率=物理时钟频率X2，因为每时钟周期可以在数据上沿及下沿各传输一次数据。 N卡和A卡都一样。有些版本的GPU-Z测出来的是物理时钟频率（需要X2），有些版本是等效时钟频率（不需要X2），而DDR5显存是物理时钟频率的4倍，但目前使用过的几个版本GPU-Z在处理DDR5显存时，都是显示的等效时钟频率（不需要X4）。补充：完全正常。实际频率就是指物理时钟频率，850MHz。默认频率那一项就是指等效时钟频率，850*2=1700MHz。没有问题。