Transformer架构迎来历史性突破!刚刚,何恺明LeCun、清华姚班刘壮联手,用9行代码砍掉了Transformer「标配」归一化层,创造了性能不减反增的奇迹。就在刚刚,何恺明和LeCun两大巨头联手,彻底改变了Tranformer架构!在Meta、NYU、MIT、普林斯顿等联手的这项工作中,研究者们共同发现了一种没有归一化层的Transformer。不知道使用动态Tanh(Dynamic Tanh,简称DyT)的LLM,推理性能到底能提高多少呢?
Transformer架构迎来历史性突破!刚刚,何恺明LeCun、清华姚班刘壮联手,用9行代码砍掉了Transformer「标配」归一化层,创造了性能不减反增的奇迹。就在刚刚,何恺明和LeCun两大巨头联手,彻底改变了Tranformer架构!在Meta、NYU、MIT、普林斯顿等联手的这项工作中,研究者们共同发现了一种没有归一化层的Transformer。不知道使用动态Tanh(Dynamic Tanh,简称DyT)的LLM,推理性能到底能提高多少呢?