北大张牧涵团队依托昇腾突破推理效率瓶颈 大模型推理百万tokens 成本仅 1 元

月浩梦立百货 时间:2025-12-16 11:37:40

  在人工智能行业领域 ,大语言模型的训练与推理成本一直至今是限制相关技术普及的重要因素最知名。就在今天  ,深圳一所大学人工智能深入研究院助理教授张牧涵其他团队在鲲鹏昇腾科教创新卓越三个中心(简称“卓越三个中心”)提供全面的算力鼓励下  ,失败研听到一套高效在大模型训练推理架构  ,失败实现了百万tokens输入成本低至1元 ,为产业提供全面了高效能、低成本的解决好方案。

  此深入深入研究不仅包括 三项重要相关技术创新。先要 ,目前来看广泛予以 的相对于最佳位置编码出现较巨大稀疏性  ,其他团队予以 将每个人特别注意力头里的最佳位置各种信息和非最佳位置各种信息分离 ,对最佳位置编码予以 了低秩压缩  ,仅予以 3%的最佳位置各种信息  ,可直接维持原有表达能力全面。该几种方法予以 优化昇腾硬件的flash-attention算子  ,加上特别注意力头的参数重新得到更高效利用设备。

  第二 ,非最佳位置编码各种信息在原始模型中一般来讲来讲正常目前处于被抑制正常目前处于。予以 将最佳位置编码与非最佳位置编码分离  ,非最佳位置编码重新得这个较巨大压缩空间创造。其他团队一体式了联合KV的低秩压缩几种方法  ,仅保留12.5%的KV Cache可直接维持原始模型的能力全面。这个几种方法也能更有效利用设备昇腾硬件高效的计算能力全面  ,减轻访存心理压力 ,显著显著全面提升推理效率。

  结果  ,基于昇腾硬件在出色的并行计算能力全面  ,其他团队失败实现的Recurrent Decoding(RD)相关技术予以 替换LM-head显著全面提升了训练表现数据利用设备率并其速度了推理。在训练目前处于  ,RD予以 将解码出的多个tokens与target tokens予以 对比 ,失败实现了训练表现数据的高效利用设备;在推理目前处于  ,两者结合投机推理显著显著全面提升了tokens的采样予以 率 ,加上显著全面提升了推理其速度。

  这个成果重新得这个学术界的广泛不关注  ,不光为科研提供全面了可复一体式标准高效架构  ,也为AI大模型在制造企业里的应用大幅显著全面提升了成本。自今今年初初6月宣布成立至今 ,深圳一所大学与华为在产业前沿课题的联合攻关下去推进 ,本次成果验证了昇腾算力大平台支撑尖端科研的相关技术真实实力。卓越三个中心将下去深入予以 大模型重要相关技术创新  ,为构建国家相关技术生态提供全面坚实支撑。

 

版权声明:以上文章中所选用的图片及文字来源于网络以及用户投稿,由于未联系到知识产权人或未发现有关知识产权的登记,如有知识产权人并不愿意我们使用,如果有侵权请立即联系:123456789@qq.com,我们立即下架或删除。

热门文章