Transformer架构迎来历史性突破!

Magicflu小小汪 2025-03-24 13:06:10

Transformer架构迎来历史性突破!刚刚,何恺明LeCun、清华姚班刘壮联手,用9行代码砍掉了Transformer「标配」归一化层,创造了性能不减反增的奇迹。就在刚刚,何恺明和LeCun两大巨头联手,彻底改变了Tranformer架构!在Meta、NYU、MIT、普林斯顿等联手的这项工作中,研究者们共同发现了一种没有归一化层的Transformer。不知道使用动态Tanh(Dynamic Tanh,简称DyT)的LLM,推理性能到底能提高多少呢?

0 阅读:2

Magicflu小小汪

简介:强大的无代码零代码数字中台魔方网表的学习资料汇总