面向大模型训练的通信行业高质量数据集构建方法与实践

doi:10.12267/j.issn.2096-5931.2026.05.006

信息通信技术与政策 ›› 2026, Vol. 52 ›› Issue (5): 41-49.doi: 10.12267/j.issn.2096-5931.2026.05.006

面向大模型训练的通信行业高质量数据集构建方法与实践

Construction methods and practice of high-quality datasets for telecommunications large model training

肖文彬¹, 李雨霏², 黄倚霄¹, 马闻达²

¹ 中国移动通信集团广东有限公司, 广州 510150
² 中国信息通信研究院人工智能研究所, 北京 100191

收稿日期:2026-04-03 出版日期:2026-05-25 发布日期:2026-05-28
作者简介:
肖文彬，中国移动通信集团广东有限公司高级工程师,主要从事智能体开发、数据治理、知识管理等相关研究工作
李雨霏，中国信息通信研究院人工智能研究所工程师,主要从事数据资产、数据要素、数据估值、数据治理等相关研究工作
黄倚霄，中国移动通信集团广东有限公司高级工程师,主要从事云计算、AI、大数据等相关研究工作
马闻达，中国信息通信研究院人工智能研究所工程师,主要从事数据治理、数据运营、数据交易等相关研究工作

XIAO Wenbin¹, LI Yufei², HUANG Yixiao¹, MA Wenda²

¹ China Mobile Communications Group Guangdong Co., Ltd., Guangzhou 510150, China
² Institute of Artificial Intelligence, China Academy of Information and Communications Technology, Beijing 100191, China

Received:2026-04-03 Online:2026-05-25 Published:2026-05-28

摘要/Abstract

摘要：

随着生成式人工智能技术的快速演进,数据质量已成为制约行业大模型性能的核心瓶颈。电信运营商掌握ZB量级跨域数据,具备训练垂直大模型的先天资源优势,然而原始通信数据普遍存在多源异构、冗余度高、长尾样本稀缺等问题,直接应用于模型训练效果有限。基于此,系统地提出“采集—治理—标注—评估”高质量数据集构建方法,涵盖深度语义压缩、基于沃瑟斯坦生成对抗网络与长短期记忆网络的长尾数据合成、领域本体构建与人机协同标注等关键技术;同时,设计通识与专识数据协同机制,有效缓解行业微调过程中的“灾难性遗忘”问题。实践证明,该方法行之有效,可为通信行业高质量数据集构建提供参考。

关键词: 高质量数据集, 通信行业, 数据合成, 领域本体, 数据增强

Abstract:

With the rapid evolution of generative artificial intelligence technology, data quality has become the core bottleneck restricting the performance of industry-scale large language models. Telecom operators possess ZB-scale cross-domain data, providing inherent resource advantages for training vertical large language models. However, raw communications data generally faces issues such as multi-source heterogeneity, high redundancy, and scarcity of long-tail samples, which limits its effectiveness when directly applied to model training. To address this, the system proposes a high-quality dataset construction method encompassing “collection—governance-annotation-evaluation,” featuring key technologies such as deep semantic compression, long-tail data synthesis based on Wasserstein Generative Adversarial Network (WGAN) and Long Short-Term Memory (LSTM) network, domain ontology construction, and human-machine collaborative annotation. Meanwhile, a general and specialized knowledge data coordination mechanism is designed to effectively mitigate catastrophic forgetting during industry fine-tuning. Practice has proved that this method is effective and can provide reference for the construction of high-quality datasets in the telecommunications industry.

Key words: high-quality dataset, telecommunications industry, data synthesis, domain ontology, data augmentation

中图分类号:

F49
F424

肖文彬, 李雨霏, 黄倚霄, 马闻达. 面向大模型训练的通信行业高质量数据集构建方法与实践[J]. 信息通信技术与政策, 2026, 52(5): 41-49.

XIAO Wenbin, LI Yufei, HUANG Yixiao, MA Wenda. Construction methods and practice of high-quality datasets for telecommunications large model training[J]. Information and Communications Technology and Policy, 2026, 52(5): 41-49.

导出引用管理器 EndNote|Ris|BibTeX

链接本文:

http://ictp.caict.ac.cn/CN/10.12267/j.issn.2096-5931.2026.05.006

http://ictp.caict.ac.cn/CN/Y2026/V52/I5/41

图/表 6

参考文献 10

[1]	谢波峰. 以高质量数据治理激活数据要素潜能[N]. 光明日报, 2023-05-19(11).
[2]	阿里巴巴集团. 大模型训练数据白皮书[R], 2024.
[3]	POLYZOTIS N, ZAHARIA M. What can data-centric AI learn from data and ML engineering?[J]. arXiv Preprint, arXiv:2112.06439, 2021.
[4]	李继峰, 张成龙, 刘鑫, 等. 面向人工智能的数据治理框架[J]. 大数据, 2025, 11(1):3-20.
[5]	ARJOVSKY M, CHINTALA S, BOTTOU L. Wasserstein GAN[C]// Proceedings of the 34th International Conference on Machine Learning. Sydney: PMLR, 2017:214-223.
[6]	穆晓君, 吴桐, 加雄伟, 等. 大模型时代: 高质量数据的构建、治理与未来展望[J]. 信息通信技术, 2024, 18(3):63-68.
[7]	WEI J, WANG X, SCHUURMANS D, et al. Chain-of-thought prompting elicits reasoning in large language models[C]//Advances in Neural Information Processing Systems 35. New Orleans: Curran Associates,Inc., 2022:24824-24837.
[8]	姜春宇, 白玉真, 刘渊, 等. 构建企业级人工智能高质量数据集: 方法与路径[J]. 大数据, 2025, 11(6):47-56.
[9]	KIRKPATRICK J, PASCANU R, RABINOWITZ N, et al. Overcoming catastrophic forgetting in neural networks[J]. Proceedings of the National Academy of Sciences, 2017, 114(13):3521-3526. doi: 10.1073/pnas.1611835114 URL
[10]	BARBOULE C, HUYNH V P. TelcoLM: collecting data, adapting, and benchmarking language models for the telecommunication domain[J]. arXiv Preprint, arXiv:2412.15891, 2024.

评估维度	核心指标	阈值要求(参考)
安全合规性 (一票否决)	隐私信息脱敏/剔除率、权属授权合规率、全流程合规漏洞	脱敏率100%、授权合规率100%、合规漏洞为0
基础数据质量	字段缺失率、重复数据去重率、格式统一化率、时效性	缺失率≤0.3%、去重率≥99%、统一化率100%、实时数据时延≤毫秒级
行业专业适配性	专业术语归一化率、因果/拓扑关系校验通过率、场景覆盖度	归一化率100%、校验通过率≥98%、覆盖核心业务场景
实际效用	核心任务准确率、长尾场景准确率、模型鲁棒性	核心任务准确率≥92%;长尾场景准确率≥90%;鲁棒性达标

评估维度	核心指标	阈值要求(参考)
安全合规性 (一票否决)	隐私信息脱敏/剔除率、权属授权合规率、全流程合规漏洞	脱敏率100%、授权合规率100%、合规漏洞为0
基础数据质量	字段缺失率、重复数据去重率、格式统一化率、时效性	缺失率≤0.3%、去重率≥99%、统一化率100%、实时数据时延≤毫秒级
行业专业适配性	专业术语归一化率、因果/拓扑关系校验通过率、场景覆盖度	归一化率100%、校验通过率≥98%、覆盖核心业务场景
实际效用	核心任务准确率、长尾场景准确率、模型鲁棒性	核心任务准确率≥92%;长尾场景准确率≥90%;鲁棒性达标

面向大模型训练的通信行业高质量数据集构建方法与实践

Construction methods and practice of high-quality datasets for telecommunications large model training

RichHTML

PDF

可视化

摘要/Abstract

引用本文

使用本文

图/表 6

参考文献 10

相关文章 10

编辑推荐

Metrics

本文评价

[1]	白玉真, 杨靖世, 袁博, 王思佳, 贾轩, 王思源. 企业高质量数据集建设运营路径研究[J]. 信息通信技术与政策, 2026, 52(5): 10-15.
[2]	许立芳, 李佳林, 郝宏宇. 证券公司高质量数据资源入表探索与实践[J]. 信息通信技术与政策, 2026, 52(5): 16-21.
[3]	樊威, 李荪, 闫树, 王甜甜, 曹峰. 全生命周期需求视角的高质量数据集供给研究[J]. 信息通信技术与政策, 2026, 52(5): 2-9.
[4]	王栋, 杨华锋, 刘威辰, 李康, 刘敬谦, 刘世伟. 基于多模态融合与AI辅助的高质量数据集构建方法与实践[J]. 信息通信技术与政策, 2026, 52(5): 22-31.
[5]	张云龙, 童锦瑞, 向勇, 张志强, 姚桂花, 袁博. 面向数据集建设的平台工具体系与落地实践研究[J]. 信息通信技术与政策, 2026, 52(5): 32-40.
[6]	张博钧, 冯志芳, 徐雯祯, 李文卓. 全球视角下具身智能高质量数据集政策法规与标准研究[J]. 信息通信技术与政策, 2026, 52(5): 69-74.
[7]	燕江依, 李荪, 樊威, 曹峰. 新一代数据标注产业对“人工智能+”范式创新的作用机理与实践路径研究[J]. 信息通信技术与政策, 2025, 51(8): 26-34.
[8]	丁怡心, 虞文明, 董昊. 基于人工智能的工业产品缺陷检测关键技术与应用研究[J]. 信息通信技术与政策, 2025, 51(8): 71-77.
[9]	续晨霞, 张亦冰, 陈哲. 信息通信行业支撑防范打击治理电信网络诈骗体系研究[J]. 信息通信技术与政策, 2022, 48(10): 75-78.
[10]	张子淇, 杨筱敏, 姜涵. 我国信息通信市场准入管理变革探究[J]. 信息通信技术与政策, 2019, 45(4): 38-41.