信息通信技术与政策

信息通信技术与政策

信息通信技术与政策 ›› 2026, Vol. 52 ›› Issue (5): 22-31.doi: 10.12267/j.issn.2096-5931.2026.05.004

专题:高质量数据集 上一篇    下一篇

基于多模态融合与AI辅助的高质量数据集构建方法与实践

A methodological framework for high-quality dataset construction based on multimodal fusion and AI assistance

王栋, 杨华锋, 刘威辰, 李康, 刘敬谦, 刘世伟   

  1. 中国电信集团有限公司, 北京 100033
  • 收稿日期:2026-03-20 出版日期:2026-05-25 发布日期:2026-05-28
  • 作者简介:
    王栋,中国电信集团有限公司政企信息服务事业群智算云创新团队技术专家,主要研究方向为大模型、知识图谱、智能体等
    杨华锋,中国电信集团有限公司政企信息服务事业群智算云创新团队技术研发组长,主要研究方向为图神经网络、推荐系统、大模型、智能体等
    刘威辰,中国电信集团有限公司政企信息服务事业群智算云创新团队大模型技术专家,主要研究方向为自然语言处理、知识图谱、大模型应用等
    李康,中国电信集团有限公司政企信息服务事业群智算云创新团队大模型技术专家,主要研究方向为推荐系统、大模型、智能体等
    刘敬谦,中国电信集团有限公司政企信息服务事业群智算云创新团队技术负责人,主要研究方向为人工智能、金融科技、大数据和云计算技术等
    刘世伟,中国电信集团有限公司政企信息服务事业群智算云创新团队负责人,主要研究方向为云计算、智算、大数据、数字平台等

WANG Dong, YANG Huafeng, LIU Weichen, LI Kang, LIU Jingqian, LIU Shiwei   

  1. China Telecom Corporation Limited, Beijing 100033, China
  • Received:2026-03-20 Online:2026-05-25 Published:2026-05-28

摘要:

针对企业高质量数据集建设面临的目标定位模糊、实施路径碎片化、技术底座薄弱、标注成本高昂四大瓶颈,提出一套基于多模态融合与人工智能辅助的高质量数据集构建方法论。该方法论以中国电信知识服务平台为技术载体,构建了“需求映射—智能治理—价值释放”三层架构。并且,该方法论在高端装备制造、消费品行业的规模化实践中的有效性与可复制性得到验证,数据集构建周期大幅缩短,为数据要素市场化配置背景下的企业数据资产建设提供了可操作的工程范式。

关键词: 高质量数据集, 多模态融合, AI辅助标注, 数据资产管理

Abstract:

Building high-quality datasets for AI applications often faces four practical challenges: unclear alignment with business goals, fragmented implementation, limited technical infrastructure, and excessive annotation costs, this paper presents a methodology that addresses these issues through a three-layer framework—demand mapping, intelligent governance, and value realization—implemented on China Telecom’s Knowledge Service Platform. The methodology has been validated in high-end equipment manufacturing and consumer goods industries, cutting dataset construction time, offering a practical pathway for enterprise data asset development in the era of data marketization.

Key words: high-quality dataset, multimodal fusion, AI-assisted annotation, data asset management

中图分类号: