信息通信技术与政策

信息通信技术与政策

信息通信技术与政策 ›› 2026, Vol. 52 ›› Issue (2): 18-23.doi: 10.12267/j.issn.2096-5931.2026.02.003

专题:算力互联网技术发展与产业应用 上一篇    下一篇

基于广域分布式推理网络的PD分离架构与实现

PD separation architecture and implementation based on wide-area distributed inference network

王飞飞1, 邓桓1, 唐静1, 王巍1, 苏越2   

  1. 1.中国电信股份有限公司研究院,北京 102209
    2.中国信息通信研究院云计算与数字化研究所,北京 100191
  • 收稿日期:2025-12-20 出版日期:2026-02-25 发布日期:2026-03-06
  • 通讯作者: 苏越 中国信息通信研究院云计算与数字化研究所云计算部副主任,高级工程师,长期从事云计算、算力等方面的研究工作
  • 作者简介:
    王飞飞, 中国电信股份有限公司研究院工程师,长期从事智算网络和云网融合领域新技术演进发展等方面的研究工作
    邓桓, 中国电信股份有限公司研究院高级工程师,ITU-T第二研究组副主席,长期从事智算网络、云网融合等前沿技术的研究与标准化工作
    唐静, 中国电信股份有限公司研究院网络技术研究所未来网络团队总监,长期从事智算网络等新型信息基础设施的关键技术攻关与体系架构创新等方面的研究工作
    王巍, 中国电信股份有限公司研究院工程师,长期从事智算网络等新型信息基础设施的关键技术攻关与体系架构设计等方面的研究工作

WANG Feifei1, DENG Heng1, TANG Jing1, WANG Wei1, SU Yue2   

  1. 1. Research Institute of China Telecom Corporation Limited,Beijing 102209,China
    2. Cloud Computing and Digitalization Research Institute,China Academy of Information and Communications Technology,Beijing 100191,China
  • Received:2025-12-20 Online:2026-02-25 Published:2026-03-06

摘要:

随着大模型推理需求的爆发式增长,传统集中式或静态多数据中心部署模式在时延、数据合规性与资源弹性方面面临严峻挑战。基于此,提出一种基于云边协同的广域分布式推理网络架构,侧重于构建面向算力互联网的新型智算服务体系。该架构引入预填充和解码(Prefill-Decode,PD)分离机制,将低时延敏感的预填充阶段下沉至靠近数据源的边缘节点,而高吞吐的解码阶段部署于中心云,通过广域网实现安全协同。

关键词: 广域分布式推理, 预填充和解码分离, 大模型推理

Abstract:

With the explosive growth in demand for large models inference,traditional centralized or static multi-data center deployment models face severe challenges in latency,data compliance,and resource elasticity. This paper proposes a cloud-edge collaborative wide-area distributed inference network architecture,focusing on building a new intelligent-computing service system for the emerging computing-power internet. The architecture introduces a prefill-decode separation mechanism: the latency-sensitive prefill stage is offloaded to edge nodes closer to data sources,while the high-throughput decode stage is deployed in the central cloud,enabling secure collaboration over a wide-area network.

Key words: wide-area distributed inference, prefill-decode separation, large model inference

中图分类号: