30行代码 500万长文本推理提速8倍!树注意力让GPU越多省得越多 跨GPU的注意力并行,最高提速8倍,支持512万序列长度推理,环注意力,RingAttention,后继者——树注意力,TreeAttention,来了,最关键之处在于,通信步数随设备数量成对数增长,...