工业大数据是工业互联网的核心。无论是5G、机理模型,还是工业APP,都只是数据的传输和应用。
高质量的数据可以从时效、粒度、采样频率、数据质量上去判断,其中时效越短越好(实时最佳),粒度越小越好,采样频率越高越好,数据中异常值、缺失值、离群值越少越好。至于细粒度、高采样频率带来的数据处理量、存储容量问题,是有了数据如何用的问题,和没有数据是两码事。
目前,大数据行业有个误区,认为数据来源不成问题,企业数据很多,只是基于安全问题不开放。只要政府重视、企业愿意,就有大量数据可以去分析、挖掘。实际情况却是企业根本就没有数据,出现这种情况的主要原因是:
老旧设备只有模拟量输出,没有数字量输出;自动化设备,有数字量输出,但企业采购时为节约成本,没有采购数据输出接口模块;自动化设备,有数字量输出和存储,但由于存储量有限,过时数据会被清除;既有数字接口,又有高频产生的大量数据,但由于无法处理和存储,数据没有被采集。一个永磁同步电机,电流变化的周期是100μs,采用频率为10kHZ,假如仅采集速度和转矩,且均为2个字节的整数,则一天的数据量为52,560,000,000,即48.95G。企业是否有必要、有能力采集、存储这么多数据,这些数据又有哪些用途,都是工业大数据开发所需要考虑的现实问题。
那么,企业有哪些数据可供使用?哪些是高质量的数据?应该有一个可供参考的标准。以下是对工业大数据数据来源所做的分级,共分为6级,数据所在分级越高,数据质量越高。
L0:汇总数据
汇总数据一般来自于统计报表。数据只要经过汇总处理,必有维度损失,在这些数据上做分析预测,会丢失很多有价值的信息。比如日报统计数据,必然是将每天24小时数据进行汇总,因此会丢失小时信息,无法进行需按照24小时分段进行的分析,比如班次、白天和晚上、上午和下午等可比较信息被丢弃。
L1:人工录入数据
目前主流的数据录入形式均为人工,通过ERP、MES、SCM、LIMS等软件系统录入数据。RPA(机器人流程自动化)虽然将数据录入自动化,但数据的属性相同。
人工录入数据数据量小、时效低。虽然大公司数据量很大,但是由多人同时录入的。
该级数据是目前BI的主流数据来源。
L2:标识数据、网站点击数据
是物联网的主要数据来源之一,有RFID、条形码、二维码等,一般只能提供时间、位置、标签ID信息,是自动产生的最简单的数据。
网站点击可以等同于刷码,虽然是人工操作,但操作简单,其具体含义与点击链接所在网页及位置有关。
L3:传感器数据
传感器数据是工业互联网数据的主要来源,这里仅列在L3级,原因是传感器采集的数据比较单一,大多数传感器采集周期比较长,还有的传感器部署成本比较高。
L4: 工业控制系统数据
工业控制系统包括SCADA、DCS、PLC等,其中包括了传感器的数据,但是还有控制系统的运行参数。这些数据一般都与行业相关。
L4比L3数据多而有价值的原因有多方面,比如PID控制,只有被控值是通过传感器测量的,但控制值需要不断调整,控制值数据也很有价值。
L5:电源电机数据
基于DSP控制的数字电源、逆变器、电机等设备,会产生10kHz变化的数据,这些数据中蕴含中许多与生产、质量、设备有关的细节信息,与行业无关,是工业大数据最基础、最有价值的数据来源。
从以上L0到L5的层次演化来看,主要特征是:(1)数据量越来越大(2)通用性越来越强。用这个模型,可以评估企业在工业互联网方面的水平,也可以指明发展的方向。
模型的另外一个特征是,高层次的数据可以产生低层次的数据,比如电机的运动->零件产量-> 产品产量->入库数据->销售数量–>销售收入。
不同数据来源层次的关系