找回密码
 注册

Sign in with Twitter

It's what's happening?

微信登录

微信扫一扫,快速登录

萍聚头条

查看: 95|回复: 0

中国信通院李荪:AI原生数据升级为核心生产要素,高质量数据集为“大模型时代”核心燃料

[复制链接]
发表于 2025-11-14 13:14 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
w1.jpg

11月14日,大模型 大未来——2025年大模型应用场景交流全国行·深圳站暨大模型数据要素建设行活动在深圳举办。

本次活动由红星传媒、深圳河套学院、中国移动数智化部联合主办,中国人工智能产业发展联盟(AIIA)数据委员会、深圳市人工智能协会以及深圳市翻译协会协办。

来自高校、行业协会、行业机构及中国移动、顺丰科技、金正优智科技、得理科技等10余家行业企业参会,围绕“模型应用”、“高质量数据集建设”、“场景实践”等内容开展了深度交流。

中国信通院人工智能研究所李荪在主题演讲中指出,人工智能正从“AI赋能”走向“AI原生”。“当AI原生成为核心逻辑,数据已从‘辅助输入’升级为核心生产要素,即AI原生数据。”

w2.jpg

政策端来看,国家数据局、工信部等持续完善顶层设计,《“数据要素×”三年行动计划》《国家人工智能产业综合标准化体系建设指南(2024版)》等文件密集出台;国务院国资委发布首批30项央企高质量数据集;北京、上海、山东、武汉、南京、杭州、呼和浩特、苏州等11地在2025年2-4月集中发布奖补政策,激励数据集供给端建设。截至目前,沈阳、保定等7个国家级数据标注基地已建成数据集524个,规模超29PB,服务大模型163个,数据标注产业迈入快速扩容期。

活动现场发布的一组数据显示,全球大模型训练数据量自2010年后呈指数级增长,2025年已逼近10¹⁵ Token量级;但数据密度在2024年出现“见顶回落”——以Qwen系列为例,Qwen 2.5-32B密度为554,Qwen 3-Max仅36,下降近15倍。“规模竞赛”进入“质量竞赛”阶段,高质量数据集成为人工智能应用升级的核心要素。

AI原生强调从系统设计、代码实现到应用场景均以AI技术为出发点和驱动力,实现“脱胎换骨”的范式重构;数据层、技术层、应用层同步跃迁,形成动态关联、多模态融合、实时闭环的“知识网络”,为大模型持续演进提供“燃料”。

面向AI原生的数据工程体系成为破解瓶颈的关键。中国信通院提出“静态管理→动态学习、数据治理→数据智能治理、一次性清洗→持续评估优化”三大转变,构建贯穿采集、治理、反馈与评估的全流程原生数据工程,让数据与模型共同演化、生长。

目前,其“人工智能数据集质量评估体系(ADAQ)”已开发60个质量评估算子,覆盖完整性、规范性、准确性、及时性、一致性、稠密性、多样性、均衡性、相关性、原创性、可溯性、可访问性等12个一级指标、36个二级指标,自动化评测率达75%,为高质量数据集建设提供可量化、可落地的“标尺”。

刘谧 红星新闻记者 李伟铭
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+1, 2025-11-15 16:14 , Processed in 0.123098 second(s), 30 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表