首次证实白盒Transformer可扩展性!马毅教授CRATE 新智元报道编辑,LRS,新智元导读,CRATE,α是一种新型Transformer架构变体,通过设计改进提升了模型的可扩展性、性能和可解释性,CRATE,α,Base在ImageNet分类任务上的性能...