关闭

中国科学院自动化研究所副总工程师王金桥:高质量行业数据集是智能经济的核心基础设施丨聚焦工业高质量数据集建设

2026-04-08 10:08

工业数据是工业发展宝贵的战略资源,是推动制造业数字化、网络化、智能化发展的关键生产要素。为探索工业数据“采”“集”“用”有效路径,工业和信息化部3月印发通知,启动工业数据筑基行动,开展面向人工智能赋能的高质量行业数据集建设先行先试。《中国电子报》近日展开广泛采访,就“工业数据筑基行动”进行解读,就高质量数据集建设汇聚行业智慧,以期对工业领域高质量数据集建设贡献力量。日前,中国科学院自动化研究所副总工程师、武汉人工智能研究院院长王金桥就相关问题接受《中国电子报》采访,现将部分精彩观点摘录如下。

您认为工业和信息化部启动工业数据筑基行动、开展先行先试,出于怎样的考量?

王金桥:我认为这是关乎我国制造业未来竞争力,由技术演进、产业规律和国家战略共同驱动的“必然选择”。

一是技术演进的需要。过去几年,通用大模型技术进展取得了巨大突破。但我们逐渐意识到,大模型在工业领域的“智能涌现”,依赖于一个核心前提——高质量、高浓度、标准化的专业知识数据集。通用大模型虽然“通才”,但在制造业复杂的物理机理、精密的工艺参数面前,往往显得“书生气”太重。要让大模型真正理解物理世界,从“能说会道”进化到“能工巧匠”,必须喂给它经过精心治理的多模态工业数据(视觉、声纹、振动、时序信号等)。这种从“依赖算力”向“依赖高质量数据”的范式转变,使得数据集的地位从“辅助要素”上升为“核心生产力”。行动正是在大模型技术爆发、亟待向工业深水区渗透的关键节点,补齐数据短板的关键举措。

二是为了打破产业转型的瓶颈。当前制造业数字化转型进入深水区,但大量工业数据处于“沉睡”状态——异构、孤岛、标准不一,企业“有数据不能用、想用没数据”。行动通过政府引导,从行业层面破解这一共性难题,为数字化转型扫清底层障碍。

三是国家战略的布局。今年政府工作报告首提“打造智能经济新形态”,而高质量行业数据集正是智能经济的核心基础设施。行动通过先行先试,为国家智能经济构建底层的“战略资源储备”。

四是安全底线的考量。工业数据涉及国民经济命脉,在全球科技竞争加剧的背景下,必须构建自主可控的数据底座。行动强调“筑基”,既是在筑技术之基,更是在筑安全之基。

总的来说,这次行动的出台,是在技术变革的拐点、产业转型的痛点、国家战略的高点与国际竞争的关键点上,进行的一次精准发力,标志着我国推进新型工业化进入了“数据+模型”双轮驱动的深层次变革阶段。

您认为,该行动对行业有何价值?

王金桥:过去几年,大模型技术取得了突破性进展,但在工业领域的落地始终面临一个核心瓶颈——数据。工业数据分散在异构设备、孤岛系统和复杂的工艺流程中,不仅体量大、种类多,而且专业性强、标注成本高,很难直接成为大模型可理解的“养料”。

行动的价值,至少体现在三个层面:

第一,打通工业智能化的“数据大动脉”。行动的顶层设计非常清晰,从数据采集、治理到平台搭建,再到面向人工智能的赋能应用,形成了一条完整的链条。特别是提出建设重点行业数据可信互联平台和四大资源库,相当于为工业领域构建了统一的数据“底座”。有了这个底座,大模型才能真正“读懂”工业,从通用对话走向专业智造。

第二,推动人工智能技术范式从“小模型碎片化”走向“大模型体系化”。过去工业领域的AI应用,往往是针对某个具体场景做一个专用模型,开发周期长、复用性差、难以规模推广。而高质量数据集的建设,让大模型可以通过预训练加微调的方式,快速适配不同场景。这是一场从“手工作坊”到“工业化生产”的范式跃迁。

第三,为我国构建自主可控的智能经济生态打下基础。 工业数据涉及国民经济命脉,数据主权和安全至关重要。通过引导建设自主可控的高质量数据集,结合国产算力和基础软件的发展,我们才能真正构建起从数据到模型到应用的全栈自主可控能力,这在当前国际竞争格局下具有战略意义。

从产业链视角看,我认为这次行动会从四个层面释放红利:

在数据采集端,行动将直接拉动高精度传感器、智能网关、边缘计算设备的需求。工业数据质量决定了模型能力的上限,要构建高质量数据集,就必须在“采”的环节下功夫。这意味着具备多模态感知能力的硬件设备将迎来新的市场空间。

在数据治理与平台端,行动将催生一批深耕工业垂直领域的专业数据服务商。工业数据的清洗、标注、合成、治理,技术门槛高、专业性强,不是通用数据服务商能简单复制的。行动搭建的行业数据可信互联平台,为这类专业服务提供了载体。同时,连接数据与应用的“模型即服务”平台也将迎来发展机遇。

在行业应用端,这是行动最大的受益方。从智能制造到低空经济,从智慧医疗到智慧城市,高质量数据集将大幅提升大模型在垂直场景的应用效果。以智能制造为例,借助高质量产线数据集,大模型可以在工业质检、工艺参数优化、设备预测性维护等领域实现更高精度、更稳定的表现。在我参与的一些实践中,利用多模态数据(视觉+声纹+传感)进行设备状态监测,已经能够做到比传统阈值报警更早、更准确地识别故障隐患。

在基础软硬件端,行动将倒逼国产AI芯片、基础软件栈的协同优化。高质量数据集的规模化和大模型的训练推理需求,对算力提出了更高要求,同时也为国产软硬件提供了宝贵的迭代场景。只有通过真实场景的锤炼,国产化底座才能真正走向成熟。

哪些行业有望在高质量数据集建设方面率先取得突破?

王金桥:具备先行先试基础的行业通常有三个共同特征:数字化基础较好、痛点场景明确、数据价值密度高。选择这些行业率先突破,可以形成可复制、可推广的经验,为更广泛的工业领域数据筑基探路。

一是电子信息制造业。 这个行业本身自动化程度高、数据采集能力强,且产品迭代快、质量要求高,对智能质检、良率分析、工艺优化有强烈需求。无论是半导体制造还是消费电子组装,都有大量可复用的多模态数据场景,具备快速形成高质量数据集的基础。

二是装备制造业。包括工程机械、轨道交通、航天航空等。这类行业设备价值高、运维成本大,对预测性维护、故障诊断、数字孪生的需求迫切。同时,装备制造企业往往积累了大量的历史运行数据和故障案例,数据基础较好,适合开展面向设备全生命周期管理的数据集建设。

三是生物医药与医疗器械。 这个行业数据模态丰富——医学影像、文本报告、基因序列、生理信号等,且与多模态大模型的契合度很高。我国在医疗数据规模和场景多样性上有独特优势,具备先行先试的条件。

四是能源与电力。电网、发电厂等基础设施的数字化程度较高,传感器部署密集,数据实时性强。在新能源并网、设备状态监测、负荷预测等场景中,人工智能已有较好的应用基础,高质量数据集的建设将进一步释放其潜力。

五是低空经济相关产业。这是一个新兴领域,涉及无人机、通航、空管等,数据模态涵盖遥感影像、气象数据、飞行轨迹、视频流等,对多模态融合要求高。由于是新兴赛道,没有历史包袱,更容易从零开始构建标准化的高质量数据集。

目前高质量行业数据集建设面临哪些挑战?

王金桥:当前,高质量行业数据集建设还面临以下主要问题和挑战:

第一,数据“采”的环节。多模态、多源异构数据的采集与对齐难度大。工业场景中的数据往往来自不同设备、不同协议、不同模态——视觉、声纹、振动、温度、时序信号等交织在一起。如何保证这些数据的时空对齐、语义对齐,是构建高质量数据集的第一道门槛。目前行业内还缺乏成熟的自动化采集工具和标准化接口。

第二,数据“集”的环节。标注成本高、专业性强、长尾场景覆盖难。 工业数据的标注不仅需要人力,更需要深厚的行业知识。比如一个缺陷检测数据集,标注人员必须知道什么是真正的缺陷、什么是误报,这往往需要资深工程师参与。此外,工业场景中真正有价值的往往是那些“小概率、大影响”的长尾事件(如设备故障),这类数据极度稀缺,靠真实采集难以满足模型训练需求。

第三,数据“用”的环节。数据安全与共享的矛盾突出。 工业企业普遍对数据安全高度敏感,担心核心工艺数据、产线数据外泄。在“不敢共享”的顾虑下,跨企业、跨行业的数据流通难以实现。如何在保障数据主权的前提下实现“可用不可见”,目前还没有成熟的机制和平台。

第四,标准层面。数据格式、质量分级、评测体系尚不统一。 目前行业数据集的建设仍处于“各自为战”的状态,缺乏统一的标准规范。同一个场景下,不同企业建设的数据集可能格式各异、标注粒度不同、质量参差不齐,难以形成规模效应和复用价值。

基于以上分析,我对后续工作的推进有四点建议:

一是坚持“需求牵引、场景驱动”。 建议从有明确应用价值、模型可快速见效的场景切入,而不是为了建数据而建数据。让企业在试点中看到实实在在的效益提升,参与动力自然会增强。

二是推动“标准先行、共建共享”。 建议尽快组织力量,制定行业数据集的标准规范,包括数据格式、标注规范、质量分级、接口协议等。同时,探索建立数据共享激励机制和知识产权保护机制,让贡献数据的主体能够获得合理回报。

三是鼓励“平台支撑、生态协同”。 支持有技术能力的新型研发机构、平台企业搭建行业数据可信互联平台,提供数据治理、模型训练、评测验证等一站式服务,降低企业参与门槛。同时,充分发挥新型研发机构“中立性”的优势,做好生态组织者。

四是重视“合成数据、技术赋能”。 针对工业场景中长尾数据稀缺的难题,建议支持数据合成、数据增强等前沿技术研发,利用模型生成高质量合成数据来补充真实数据不足,降低对真实数据的依赖。


一键登录
邮箱登录
该邮箱未注册
手机登录
输入验证码