思考到基于 Transformer 的重新着实预料器的争议,钻研者们正在思考为甚么 Transformer 在光阴序列预料中的审阅实用展现致使不如线性模子 ,而在良多其余规模却发挥着主导熏染。颠倒更的新
克日 ,天下来自清华大学的预料一篇新论文提出了一个差距的视角 ——Transformer 的功能不是固有的,而是泛起由于将架构不当地运用于光阴序列数据组成的。
论文地址
思考到基于 Transformer 的重新着实预料器的争议,钻研者们正在思考为甚么 Transformer 在光阴序列预料中的审阅实用展现致使不如线性模子 ,而在良多其余规模却发挥着主导熏染。颠倒更的新
克日 ,天下来自清华大学的预料一篇新论文提出了一个差距的视角 ——Transformer 的功能不是固有的,而是泛起由于将架构不当地运用于光阴序列数据组成的。
论文地址