摘要:
随着人工智能技术快速迭代,模型训练已从通用规模扩张阶段,进入行业应用驱动、高质量数据支撑的新阶段,数据的类型、质量与供给能力直接决定模型的行业适配性与应用落地效果。在大模型全生命周期内,数据需求是差异化的,且面向行业场景的高质量数据集供给尚存短板。基于此,聚焦大模型预训练、监督微调、强化对齐、工程应用全阶段,梳理各阶段数据需求的演进趋势,对比国内外高质量数据供给差异,剖析我国在公共数据利用、数据开源、标注生态等方面的短板,从而针对性地提出优化数据供给的对策建议,为突破大模型训练数据瓶颈、推动人工智能产业发展提供支撑。
中图分类号:
樊威, 李荪, 闫树, 王甜甜, 曹峰. 全生命周期需求视角的高质量数据集供给研究[J]. 信息通信技术与政策, 2026, 52(5): 2-9.
FAN Wei, LI Sun, YAN Shu, WANG Tiantian, CAO Feng. Research on high-quality dataset supply from the perspective of full life cycle demand[J]. Information and Communications Technology and Policy, 2026, 52(5): 2-9.