回上列表
騰訊混元AI Infra推開源生產級高性能LLM推理核心算子庫HPC-Ops 推理吞吐提升三成
2026/02/05 09:53
騰訊(00700.HK)旗下大語言模型騰訊混元AI Infra團隊宣布,推出開源生產級高性能LLM推理核心算子庫HPC-Ops,基於生產環境痛點,採用CUDA和CuTe從零構建,通過抽象化工程架構、微架構深度適配及指令級極致優化等,降低底層算子開發門檻,將核心算子性能逼近硬件高峰,實現性能突破。

在真實場景下,基於HPC-Ops,混元模型推理QPM提升30%,DeepSeek模型QPM提升17%。同時,在單算子性能方面,HPC-Ops實現Attention相比FlashInfer / FlashAttention最高提升2.22 倍;GroupGEMM相比 DeepGEMM最高提升1.88倍;FusedMoE相比TensorRT-LLM最高提升1.49倍。(jl/w)~

阿思達克財經新聞
網址: www.aastocks.com