数学上Transformer和SSM是一回事新架构Mamba更新二代！作者

作者： 2024年06月04日财经浏览

Transformer挑战者、新架构Mamba，刚刚更新了第二代：

更重要的是，团队研究发现原来 Transformer和状态空间模型 （SSM） 竟然是近亲？？

两大主流序列建模架构，在此统一了。

没错，这篇论文的提出的重磅发现： Transformer中的注意力机制与SSM存在着非常紧密的数学联系。

团队通过提出一个叫 结构化状态空间二元性 （Structured State Space Duality，SSD）的理论框架，把这两大模型家族统一了起来。

Mamba一代论文年初被ICLR拒稿，当时还让许多学者集体破防，引起一阵热议。

这次二代论文在理论和实验上都更丰富了，成功入选ICML 2024。

作者依然是和两位。

他们透露，论文题目中“Transformers are SSMs”是致敬了4年前的线性注意力经典论文“Transformers are RNNs”。

那么，SSM和注意力机制究竟是怎么联系起来的，Mamba-2模型层面又做出哪些改进？

统一SSM和注意力机制

Transformer的核心组件是 注意力机制 ，SSM模型的核心则是一个 线性时变系统 。

两者看似不相关，但论文指出：它们都可以表示成 可半分离矩阵 （Semiseparable Matrices）的变换。

先从SSM的视角来看。

SSM本身就定义了一个线性映射，恰好对应了一个半可分离矩阵。

半可分离矩阵有着特殊的低秩结构，这种结构又恰好对应了SSM模型中的状态变量。

于是，矩阵乘法就相当于SSM的线性时变系统了。 带选择性的SSM本质上就是一种广义线性注意力机制 。

从注意力的视角看又如何？

团队试图以更抽象方式来刻画注意力机制的本质，毕竟“Softmax自注意力”只是众多可能形式中的一种。

更一般地， 任意带掩码的注意力机制，都可以表示为4个张量的缩并 (Contraction)。

其中QKV对应注意力中的query，key，value，L对应掩码矩阵。

借助这一联系，它们在线性注意力的基础上提出了 结构化掩码注意力SMA （Structured Masked Attention）。

当注意力的掩码矩阵是半可分离的，就与SSM等价了。

基于这个发现，作者进一步推导出两种等价的计算形式，这就是本文核心思想”状态空间二元性”SSD的由来。

Mamba-2：更强学习能力，更快训练推理

基于SSD思想的新算法，Mamba-2支持 更大的状态维度 （从16扩大到256），从而学习更强的表示能力。

新方法基于块分解矩阵乘法，利用了GPU的存储层次结构，提高训练速度。

架构设计上，Mamba-2 简化了块的设计 ，同时受注意力启发做出一些改动，借鉴多头注意力创建了多输入SSM。

有了与注意力之间的联系，SSD还可以轻松 将Transformer架构多年来积累起来的优化方法引入SSM 。

比如引入 张量并行和序列并行 ，扩展到更大的模型和更长的序列。

又比如引入 可变序列长度 ，以实现更快的微调和推理。

Mamba-2的SSD层比Mamba-1中的关联扫描快很多，使团队能够增加状态维度并提高模型质量。

实验中，3B参数规模的Mamba-2，在300B tokens训练， 超越了相同规模的Mamba-1和Transformer 。

Mamba-2在需要更大状态容量的任务上比Mamba-1有了显著改进，例如 硬关联召回任务 (MQAR)。

团队还对Mamba-2+注意力的混合架构模型做了一些实验。发现 4-6个注意力层与Mamba-2层混合模型 的性能，甚至优于Transformer++（原版结构+现代最佳实践）和纯Mamba-2。

作者Tri Dao认为，这说明了 Attention和SSM两种机制可以互为补充 ，另外他还提出了对未来研究方向的思考。

最后，除了52页的论文之外，两位作者还撰写了四篇更易读的系列博客文章。

他们特别建议： 先看博客，再看论文。

对Mamba-2模型或者状态空间二元性理论感兴趣的，可以读起来了～

博客（两个地址内容一样）：https://tridao.me/blog/https://goombalab.github.io/blog/

论文：https://arxiv.org/abs/2405.21060

代码和模型权重：https://github.com/state-spaces/mamba

参考链接：[1]https://x.com/_albertgu/status/1797651240396144758[2]https://x.com/tri_dao/status/1797650443218436165

千元以内！手机平板电脑推荐品牌！用过的说说！国产的便宜怎么样？联想华硕怎么样，6到7寸的。。。。

联想和华硕能打电话的双核或者四核机没有千元以内的单核倒是有，不过太落后了国产的看看台电和酷比魔方吧，酷比最出的TALK7X不错，四核的是499，7寸的

帮找一下合适的主板吧，谢谢各位啦

这个散热器只能支持INTEL LGA775或者AMD AM2或者AM2+接口的CPU，建议楼主还是再买个散热器，再买个I3 2120和华硕P8H61主板，也就1500元左右。也可以换成AMD羿龙II X4 955和华硕M5A87主板，两个主板都是大板。

华硕平板Transformer Prime多少钱大家会入手

補充一下，雖然二代的實際性能可能已經夠強，但可能還是會讓樓上的各位失望，因為二代也只是A9，雖然整體性能會提升，但也只是有限的5倍。但工藝更先進、性能比四核A9還要強10倍的雙核A15，據說會在2012年Q3上市。那時候才是平板更新換代的關鍵時期。所以已經有平板的不妨多玩幾個月，坐等雙核A15上市或者A9四核降價，估計到5月份，最多7月份價格也就差不多了吧。

声明：本站内容均来自互联网，仅供演示用，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，我们将在24小时内删除。
本文地址：https://www.srwj168.com.cn/caijing/20833.html

相关文章