Transformer注意力机制重大升级:IHA显著提升推理与长上下文任务性能

2026.04.13 20:35
Paul Liang在X平台宣布Transformer注意力机制获重大升级,推出Interleaved Head Attention(IHA)。该机制让注意力头间共享信息,兼容高效实现,在推理及长上下文任务上表现优异,理论上泛化多头注意力。

2026年4月11日,Paul Liang在X平台发文宣布,Transformer的注意力机制迎来重大升级——Interleaved Head Attention(IHA)正式推出。与传统多头注意力不同,IHA不再维持各注意力头的独立性,而是通过头间信息共享来增强模型的推理能力与组合性。

具体来看,IHA通过学习原始注意力头的线性组合生成伪查询、伪键与伪值,让头间交互在注意力计算前就已发生,同时还能兼容FlashAttention等高效实现方案。实验数据显示,IHA在推理任务和长上下文场景中均有明显提升:GSM8K(Maj@16)得分提高5.8%,MATH-500(Maj@16)提升2.8%;而在RULER任务里,4k上下文下性能提升27%,> 8k时达32%,16k上下文更是实现了112%的增长。从理论层面分析,IHA对传统多头注意力具有严格的泛化性。

同一天,Chanakya Ekbote在X平台的帖子中提到,Noam Shazeer团队此前提出的Talking-Heads Attention给了他们启发——既然头间通信如此关键,那么头与头之间最合理的通信方式应该是什么?尤其是从...

作品声明:内容由AI生成

快报

更多

18:41

2连板可川科技:硅光芯片子公司可川光子正在积极地进行市场开拓工作,暂未形成营收

18:41

证监会就《违规转让证券案件行政处罚实施规则(征求意见稿)》公开征求意见

18:37

中国证监会就《行政处罚案件违法所得认定办法(征求意见稿)》公开征求意见

18:34

财政部等两部门:调整平潭综合实验区有关增值税和消费税退税货物范围

18:32

蓝思科技:实际控制人控制的群欣公司拟增持不低于1亿元公司股份,计划6个月内实施完毕

18:31

国家网信办等十部门联合公布《促进和规范电子单证应用规定》

18:28

北方稀土:2025年净利润22.5亿元,同比增长124%

18:27

德邦科技:股东国家集成电路基金拟减持不超3%公司股份

18:27

证监会对高鸿股份罚款1.35亿元

18:23

军信股份:签订哈萨克斯坦阿拉木图市垃圾供应与保障合同

18:22

开云集团联手谷歌计划2027年推出Gucci高端智能眼镜

18:21

纳思达:4月20日起证券简称由“纳思达”变更为“奔图科技”

18:20

中国海油自研深水钻井隔水管系统首次成功应用

18:20

李雪峰、周海晨升任申万宏源党委委员、申万宏源证券副总经理

18:19

长芯博创:终止收购鸿辉光联通讯93.81%股权

18:08

南向资金今日净买入超170亿港元,盈富基金获买入居前

18:07

北京证监局对中财金控出具警示函

18:05

四川:2025年航天产业规模达500亿元,将规划建设西部商业航天港

18:03

三星电子加速研发下一代高带宽内存,首批HBM4E将于5月生产

17:59

中证协修订《证券公司建立稳健薪酬制度指引》,新增长周期考核要求

Baidu
map