3月16日晚,马斯克发文点赞中国月之暗面Kimi团队,让团队底层架构创新受公众关注。
论文中,17岁深圳高中生陈广宇位列共同一作引发热议,他低调称成果是团队协作,拒绝“造神”,希望外界多关注技术。
据悉,团队提出的“注意力残差”,在相近效果下可减少约20%训练计算量,推理延迟增加不到2%,还能替换标准残差连接。
制作:何润
审核:何畅、马丹、郑创彬
来源:深圳报业集团记者 陈震霖
部分画面来源于网络侵删