| 2026 | No.4 | No.3 | No.2 | No.1 | ||
|---|---|---|---|---|---|---|
| 2025 | No.12 | No.11 | No.10 | No.9 | No.8 | No.7 |
| No.6 | No.5 | No.4 | No.3 | No.2 | No.1 | |
| 2024 | No.12 | No.11 | No.10 | No.9 | No.8 | No.7 |
| No.6 | No.5 | No.4 | No.3 | No.2 | No.1 | |
| 2023 | No.12 | No.11 | No.10 | No.9 | No.8 | No.7 |
| No.6 | No.5 | No.4 | No.3 | No.2 | No.1 | |
| 2022 | No.12 | No.11 | No.10 | No.9 | No.8 | No.7 |
| No.6 | No.5 | No.4 | No.3 | No.2 | No.1 | |
| 2021 | No.12 | No.11 | No.10 | No.9 | No.8 | No.7 |
| No.6 | No.5 | No.4 | No.3 | No.2 | No.1 | |
| 2020 | No.12 | No.11 | No.10 | No.9 | No.8 | No.7 |
| No.6 | No.5 | No.4 | No.3 | No.2 | No.1 | |
| 2019 | No.12 | No.11 | No.10 | No.9 | No.8 | No.7 |
| No.6 | No.5 | No.4 | No.3 | No.2 | No.1 | |
| 2018 | No.12 | No.11 | No.10 | No.9 | No.8 | No.7 |
| No.6 |
随着人工智能技术快速迭代,模型训练已从通用规模扩张阶段,进入行业应用驱动、高质量数据支撑的新阶段,数据的类型、质量与供给能力直接决定模型的行业适配性与应用落地效果。在大模型全生命周期内,数据需求是差异化的,且面向行业场景的高质量数据集供给尚存短板。基于此,聚焦大模型预训练、监督微调、强化对齐、工程应用全阶段,梳理各阶段数据需求的演进趋势,对比国内外高质量数据供给差异,剖析我国在公共数据利用、数据开源、标注生态等方面的短板,从而针对性地提出优化数据供给的对策建议,为突破大模型训练数据瓶颈、推动人工智能产业发展提供支撑。
高质量数据集已成为支撑人工智能发展和行业智能化转型的关键基础。基于此,首先分析了高质量数据集的概念与发展现状;其次针对不同类型的数据集剖析了其建设需求与核心问题;再次对企业高质量数据建设过程的关键环节和建设路径展开了研究,并针对医疗、能源、工业行业的高质量数据集建设路径进行了分析;最后探讨了高质量数据集的未来发展趋势。
目前,数据要素的资产化确认已成为业界关注的焦点。基于证券行业数据治理的实践观察,系统梳理了高质量数据集建设的政策演进与行业态势,深入剖析了证券行业在投资数据集构建及数据资源入表过程中面临的结构性难点与制度性挑战。通过整合数据治理、资产确认与会计计量等多重视角,构建了涵盖组织架构优化、数据标准确立、合规确权机制及成本收益计量方法的理论分析框架,并提出数据资源入表的分阶段实施路径,以期为金融机构数据要素的价值化转型提供理论参考与决策依据。
针对企业高质量数据集建设面临的目标定位模糊、实施路径碎片化、技术底座薄弱、标注成本高昂四大瓶颈,提出一套基于多模态融合与人工智能辅助的高质量数据集构建方法论。该方法论以中国电信知识服务平台为技术载体,构建了“需求映射—智能治理—价值释放”三层架构。并且,该方法论在高端装备制造、消费品行业的规模化实践中的有效性与可复制性得到验证,数据集构建周期大幅缩短,为数据要素市场化配置背景下的企业数据资产建设提供了可操作的工程范式。
围绕大模型对高质量数据集的需求,提出一套覆盖资源纳管、自动化加工、质量评测、版本追溯与安全共享的企业级平台方法论。平台通过可视化工作流、高性能过滤、混合调度与多维评测体系,解决大规模数据处理中的效率、合规与治理难题,为高质量数据集建设提供可落地方案。
随着生成式人工智能技术的快速演进,数据质量已成为制约行业大模型性能的核心瓶颈。电信运营商掌握ZB量级跨域数据,具备训练垂直大模型的先天资源优势,然而原始通信数据普遍存在多源异构、冗余度高、长尾样本稀缺等问题,直接应用于模型训练效果有限。基于此,系统地提出“采集—治理—标注—评估”高质量数据集构建方法,涵盖深度语义压缩、基于沃瑟斯坦生成对抗网络与长短期记忆网络的长尾数据合成、领域本体构建与人机协同标注等关键技术;同时,设计通识与专识数据协同机制,有效缓解行业微调过程中的“灾难性遗忘”问题。实践证明,该方法行之有效,可为通信行业高质量数据集构建提供参考。
针对深度学习目标检测算法可解释性不足导致的输出量值缺乏有效计量评价方法的难题,从计量学视角构建算法溯源技术体系。以合成孔径雷达(Synthetic Aperture Radar,SAR)图像舰船检测为典型应用场景,明确算法溯源的定义与不确定度来源,提出基于标准数据集的溯源技术路径及连续比较链;面向算法溯源的计量要求,建立标准数据集的质量评估指标体系与标准化测试方法。研究实现了SAR图像舰船检测算法输出的定量评价与量值溯源,可为人工智能算法可信评测提供基准支撑,对推动标准化评测体系建设具有重要意义。
大语言模型作为人工智能领域的前沿成果,其相关伦理问题备受学界与业界重视,中文语境下的大语言模型伦理评估数据集也随之逐步增多,具备深入研究价值。然而,当前缺乏对这类数据集的系统性梳理与分析,导致研究人员难以精准筛选适配数据集,也无法有效识别现有资源的短板。以2021年8月至2025年3月期间发布的50个中文大语言模型伦理评估数据集为研究对象,从数据集发布时间、创建信息、内容信息、开源情况、涉及领域、伦理场景等方面开展全面对比分析,为后续数据集优化与构建提供方向。
围绕具身智能高质量数据集建设中数据采集与来源治理、质量评价与评测机制、共享与应用支撑三个维度,梳理全球主要经济体相关政策法规与标准建设现状。研究表明,欧盟通过高位阶立法划定合规底线,美国依托龙头企业形成技术生态主导格局,中国通过战略高位推动和标准布局推进体系化建设。未来国内应进一步推动高位阶立法,加快完善质量评测标准,加强数据基础设施支撑并完善数据流通体系。
人工智能作为新型工业化的重要推动力,引领着新一轮科技革命和产业变革。深度学习、强化学习、大模型等人工智能技术的持续发展,以及视觉质检、生产调度、机器人控制等需求场景的不断涌现,促使制造业全面迈向智能化新阶段。以人工智能赋能工业现场自动化的方式为研究点,梳理了工业优化控制方法、智能优化控制算法、人工智能技术和工业优化控制的结合思路,并介绍了部分行业的应用探索及局限。
传统IP地址标识技术存在协议栈层次错位、语义承载薄弱等问题,难以满足应用级算力业务调度需求。基于此,提出服务语义路由核心技术路径。将服务需求编码为可路由的语义标识,在应用层实现对算力服务的精准标识与智能路由。研究分析服务语义路由的技术演进趋势,构建资源与服务协同的标识基础,重点阐述网络层基于任播地址标识和基于URL-PATH应用级算力标识的两种服务语义路由方案。对比发现,后者在灵活性、直观性和易部署性方面具有显著优势。
在我国家庭暴力治理实践中,存在救济渠道单一、“取证难”“举证难”、家庭暴力事实“认定难”、人身安全保护令“保障难”等现实问题。而智能穿戴设备的发展为赋能家庭暴力治理提供了新思路、新契机。从价值基础来看,尊重和保障人权、以能动司法推动实质正义、技术向善与美好生活是智能穿戴设备赋能家庭暴力治理的重要价值基础。在功能应用场景上,智能穿戴设备能够在证据收集和证据固定、数据监测和数据说理、危险预警和安全保障等方面发挥积极作用。因此,应完善电子数据证明效力和取证技术规范领域的立法工作,充分发挥家事司法对家庭关系的疗愈功能,通过多种方式减轻和化解家庭暴力带来的精神痛苦。同时,在智能穿戴设备赋能家庭暴力治理的过程中要特别注重当事人个人信息的保护和个人隐私的保障,在必要时引入“删除权”“被遗忘权”等。由此,智能穿戴设备可以在法治轨道上实现对家庭暴力治理的有效赋能。