信息通信技术与政策

信息通信技术与政策

信息通信技术与政策 ›› 2026, Vol. 52 ›› Issue (5): 32-40.doi: 10.12267/j.issn.2096-5931.2026.05.005

专题:高质量数据集 上一篇    下一篇

面向数据集建设的平台工具体系与落地实践研究

Research on platform tool systems and implementation practices for dataset construction

张云龙1, 童锦瑞2, 向勇1, 张志强1, 姚桂花1, 袁博2   

  1. 1 中电信人工智能科技(北京)有限公司, 北京 264001
    2 中国信息通信研究院人工智能研究所, 北京 100191
  • 收稿日期:2026-04-20 出版日期:2026-05-25 发布日期:2026-05-28
  • 作者简介:
    张云龙,中电信人工智能科技(北京)有限公司大数据研发中心副总经理,长期从事企业级数据智能平台的研发管理、技术路线规划与创新实践等方面的工作
    童锦瑞,中国信息通信研究院人工智能研究所工程师,主要从事数据要素、数据空间等方面的工作
    向勇,中电信人工智能科技(北京)有限公司大数据研发中心产品总监,长期从事数据中台与数据集平台的产品设计、需求建模与敏捷迭代等方面的工作
    张志强,中电信人工智能科技(北京)有限公司大数据研发中心研发总监,长期从事数据中台底层技术、高质量数据集工程化及平台性能优化等方面的工作
    姚桂花,中电信人工智能科技(北京)有限公司大数据研发中心产品经理,长期从事数据中台与数据集平台的产品设计、需求建模与敏捷迭代等方面的工作
    袁博,中国信息通信研究院人工智能研究所工程师,主要从事数据要素、数据流通等方面的工作

ZHANG Yunlong1, TONG Jinrui2, XIANG Yong1, ZHANG Zhiqiang1, YAO Guihua1, YUAN Bo2   

  1. 1 China Telecom Artificial Intelligence Technology Co., Ltd., Beijing 264001, China
    2 Institute of Artificial Intelligence, China Academy of Information and Communications Technology, Beijing 100191, China
  • Received:2026-04-20 Online:2026-05-25 Published:2026-05-28

摘要:

围绕大模型对高质量数据集的需求,提出一套覆盖资源纳管、自动化加工、质量评测、版本追溯与安全共享的企业级平台方法论。平台通过可视化工作流、高性能过滤、混合调度与多维评测体系,解决大规模数据处理中的效率、合规与治理难题,为高质量数据集建设提供可落地方案。

关键词: 多模态算子融合, 算子流程编排, 高质量数据集, 数据治理, 数据标注, 数据评测

Abstract:

This paper focuses on the demand for high-quality datasets in large model development and proposes an enterprise-level platform methodology covering resource management, automated processing, quality evaluation, version traceability, and secure sharing. By integrating visual workflows, high-performance filtering, hybrid scheduling, and a multidimensional evaluation framework, the platform addresses key challenges in large-scale data processing, including efficiency, compliance, and governance, and provides a practical solution for high-quality dataset construction.

Key words: multimodal operator fusion, operator workflow orchestration, high-quality dataset, data governance, data annotation, data evaluation

中图分类号: