深圳17岁少年破解AI底层难题

深圳新闻网2026年3月19日讯（深圳特区报记者陈震霖）3月16日晚，埃隆·马斯克在社交平台发文称，Kimi这项工作“令人印象深刻”，将中国人工智能公司“月之暗面”Kimi团队一项新近公开的技术成果带入更多公众视野。

随后，这篇同日发布的Kimi技术论文中，排在作者名单第一位的“Guangyu Chen”，因其“17岁高中生”的身份引发关注。记者独家联系核实得知，这位作者即陈广宇，来自深圳，目前仍是一名在读高中生。陈广宇在接受记者采访时表示，希望外界少写个人，更多关注团队共同攻关的大模型底层技术。

公开论文附录显示，Guangyu Chen、Yu Zhang、Jianlin Su前三位作者均被标注为“同等贡献”，其余34位作者姓名后均未见这一标注。与陈广宇并列共同一作的是张宇和苏剑林，前者是Kimi高效模型架构的重要研究者，后者提出的旋转位置编码（RoPE）已成为主流大模型广泛采用的位置编码方法之一。

这项成果受到关注，不只因为作者名单中出现了一名高中生，更因为它触及了大模型一项长期沿用的底层机制。今天主流大模型大多建立在Transformer架构上。可以说，没有2017年提出的Transformer，就很难有后来这一轮生成式人工智能的快速发展。但模型层与层之间的信息传递，长期仍沿用较固定的老办法。

过去常用的方法叫“残差连接”，即模型每算完一层，就把前面的信息继续叠加到下一层。这样做简单有效，但层数增加后，前面一些重要信息可能在反复叠加中被稀释。Kimi团队此次提出的“注意力残差”（Attention Residuals），试图改进这一问题，不再让每一层无差别接收前面所有层的信息，而是根据当前需要，有选择地调取更值得参考的内容。

根据论文和项目公开信息，这一方法已在Kimi Linear 48B模型上完成验证，在相近效果下训练计算量可减少约20%，相当于约1.25倍效率优势，推理延迟增加不到2%，可直接替换标准残差连接。这项研究表明，主流大模型长期沿用的层间信息传递方式，并非没有优化余地。

陈广宇真正深入接触人工智能研究，是近一年的事。起步阶段，他通过研读论文、追踪GitHub开源项目等方式补上基础认知。去年暑假期间，他曾赴旧金山实习7周，回国后于11月到Kimi团队实习。论文发布后，他在朋友圈发文回顾，提到同等贡献作者及从事模型扩展与基础设施工作的同事，称这项成果离不开每个人的投入。

深圳17岁少年破解AI底层难题

AI视界（以下内容由AI生成，仅供参考）

关键词

简介

重点

分析

猜你想问