深圳17岁少年破解AI底层难题

AI视界(以下内容由AI生成,仅供参考)

  • 关键词
  • 简介
  • 重点
  • 分析
  • 猜你
    想问

深圳新闻网2026年3月19日讯(深圳特区报记者 陈震霖)3月16日晚,埃隆·马斯克在社交平台发文称,Kimi这项工作“令人印象深刻”,将中国人工智能公司“月之暗面”Kimi团队一项新近公开的技术成果带入更多公众视野。

随后,这篇同日发布的Kimi技术论文中,排在作者名单第一位的“Guangyu Chen”,因其“17岁高中生”的身份引发关注。记者独家联系核实得知,这位作者即陈广宇,来自深圳,目前仍是一名在读高中生。陈广宇在接受记者采访时表示,希望外界少写个人,更多关注团队共同攻关的大模型底层技术。

公开论文附录显示,Guangyu Chen、Yu Zhang、Jianlin Su前三位作者均被标注为“同等贡献”,其余34位作者姓名后均未见这一标注。与陈广宇并列共同一作的是张宇和苏剑林,前者是Kimi高效模型架构的重要研究者,后者提出的旋转位置编码(RoPE)已成为主流大模型广泛采用的位置编码方法之一。

这项成果受到关注,不只因为作者名单中出现了一名高中生,更因为它触及了大模型一项长期沿用的底层机制。今天主流大模型大多建立在Transformer架构上。可以说,没有2017年提出的Transformer,就很难有后来这一轮生成式人工智能的快速发展。但模型层与层之间的信息传递,长期仍沿用较固定的老办法。

过去常用的方法叫“残差连接”,即模型每算完一层,就把前面的信息继续叠加到下一层。这样做简单有效,但层数增加后,前面一些重要信息可能在反复叠加中被稀释。Kimi团队此次提出的“注意力残差”(Attention Residuals),试图改进这一问题,不再让每一层无差别接收前面所有层的信息,而是根据当前需要,有选择地调取更值得参考的内容。

根据论文和项目公开信息,这一方法已在Kimi Linear 48B模型上完成验证,在相近效果下训练计算量可减少约20%,相当于约1.25倍效率优势,推理延迟增加不到2%,可直接替换标准残差连接。这项研究表明,主流大模型长期沿用的层间信息传递方式,并非没有优化余地。

陈广宇真正深入接触人工智能研究,是近一年的事。起步阶段,他通过研读论文、追踪GitHub开源项目等方式补上基础认知。去年暑假期间,他曾赴旧金山实习7周,回国后于11月到Kimi团队实习。论文发布后,他在朋友圈发文回顾,提到同等贡献作者及从事模型扩展与基础设施工作的同事,称这项成果离不开每个人的投入。

编辑:陈占友

AI视界(以下内容由AI生成,仅供参考)

关键词

简介

重点

分析

猜你想问