基本介绍
工业企业均拥有大量的数据,如何从数据中挖掘知识,并有效服务于自身的业务是各企业非常关注的话题。随着人工智能和数据挖掘技术的发展,市场上已存在有大量开源的和商业的数据建模解决方案,但是对于工业企业,要想建立高质量的模型,并应用于自己的业务场景,仍存在着一定的门槛,数据荒废或投入产出失衡的现场屡见不鲜。在此背景之下,南京天洑软件有限公司通过对工业企业数据建模需求的深度挖掘,研发了一套针对工业用户的数据建模平台DTEmpower。
数据建模平台DTEmpower围绕数据清理、特征提取、特征选择和模型训练等数据建模的各个环节,提供有大量算法,通过针对特定场景下算法的深度研发,利用智能调度引擎和超参优化等技术,提高模型质量的同时,降低了对用户数据建模经验的需求。同时DTEmpower提供一套图形化的建模开发环境,所有算法均可通过拖拽的方式进行调用,通过连线的方式进行数据的传递,极大的降低了用户的使用门槛。依托强大的算法和简便的操作,零基础用户也可以利用DTEmpower快速挖掘到优秀的模型。
模型是可复用的知识,DTEmpower秉承这一理念,定义了一套模型交换格式(简称DT模型),挖掘得到的模型可以直接存储为单个模型文件,DT模型可以在DTEmpower的模型运行模块DTEmpower Run(简称DTRun)、天洑优化平台AIPOD等软件中直接调用,服务于优化设计和实时预警等各种应用。
“降低数据建模的门槛、强化模型的知识属性”,DTEmpower针对典型的工业应用场景,提供了从建模到模型管理应用的一站式解决方案,让工业用户可以聚焦于业务而不是疲于数据分析,充分发挥数据的价值。
主要功能及优势
1)零编码建模
DTEmpower提供了图形化的数据建模流程搭建功能。所有的数据及模型操作,均以工具箱中模块的形式提供,用户无需具备编码能力,通过简单的节点拖拽与节点连接即可完成复杂的数据建模流程的构建。
图 1 零编码的数据建模流程搭建
2)丰富的算法
DTEmpower围绕数据清理、特征提取、特征选择和模型训练等数据建模的各个环节,在工具箱中工具的形式提供有大量算法,其中模型训练算法包括,AIAgent、MLP、AdaBoost等数十种算法,所有这些训练算法都应用了天洑自主研发的超参学习引擎TFAutoML,实现超参自动寻优。
图 2 丰富的算法
3)智能数据清理算法
数据中的异常点极大的影响着模型的质量,因此数据清理至关重要。考虑到工业设计数据集的特性,天洑研发了智能数据清理算法AIOD。相较于传统的数据清理算法,它具有以下特点:
①通过自研的智能调度引擎,管控数十种数据清理算法,包括,Global Outliers Detection、Local Outliers Detection、Contextual Outliers Detection、Regression based OD、Hybrid Auto OD、Cluster Analysis、Classification Analysis等等,综合考虑数据的整体分布,更精准的挖掘出数据集中的“潜在异常点”;
②使用门槛低,无需任何先验知识,一键完成异常点推荐;
③灵活的异常点剔除规则定义,用户可递进式地观测随着异常点剔除个数的增加而带来的代理模型精度的显著提升,更全面的掌握数据的质量情况。
图 3 异常点智能识别
4)针对小规模数据集的AIAgent训练
针对工业设计数据的“小数据集”、”数据分布不均“等特点,天洑研发了一套智能训练算法AIAgent,其主要特点包括:
①使用集成算法提升模型精度和稳定性;
②通过智能分层分类,级联使用不同置信度来源数据,极小化代理构建成本;
③通过超参优化,解决参数调节难题,用户无需介入训练过程,一键得到“最优”模型。
图 4 船舶兴波阻力数据集AIAgent训练同其他算法训练的效果对比
5)机理模型融合
DTEmpower支持用户在数据建模流程中融入机理模型,以改善模型的精度和提高模型的可解释性。具体包括:
①在特征提取环节添加新的自定义特征;
②在训练环节使用自定义的参数化模型取代黑盒模型,由DTEmpower提供优化算法对未知参数进行拟合;
③DTEmpower提供模型聚合功能,可以将用户提供的公式模型和数据训练的模型组合,作为单个DT模型导出。通过上述功能的结合,最终实现数据挖掘与机理模型的融合。
图5 机理模型融合
6)与AIPOD的无缝集成,轻松开展优化
DT模型的一类典型应用场景是,将建立的DT模型用于产品的优化设计、设备运行优化等各类优化问题中。DTEmpower建立的模型可直接导出,同时AIPOD V2.0支持在计算流程中一键导入DT模型,并且可以和脚本、可执行程序进行耦合,实现任意复杂的设计计算流程的搭建。之后便可以借助于SilverBullet算法,进行优化问题求解。
图 6 在AIPOD中一键导入DT模型,耦合建模,进行优化
7)智能预警训练
DTEmpower 是一个开放式的数据建模平台,提供了针对不同场景的定制工具箱,针对设备预警场景的PHM扩展工具箱正是其中之一。PHM扩展工具箱在在DTEmpower强大的数据建模能力的基础之上,提供了一套针对时间序列的智能预警算法,可以轻松固化专家的判断逻辑,从参数的波动、变化趋势,以及参数和预示模型预测值的相对偏差等多方面对参数进行健康度评估,实现异常早期预警。PHM工具箱目前提供有单参数预警、组合参数预警两大控件。
DTEmpower训练得到的预警模型可以直接导入模型运行模块DTRun中,DTRun可实时接收传感器数据,调用DT模型进行数据分析,返回分析结果,实现在线预警。
图 7 识别时间序列中的异常现象,并给出异常原因,辅助用户快速处置
图 8 DTRun中调用DT模型对实时数据进行分析,实现在线预警
DTEmpower的案例展示
1)数据清理与AIAgent训练
本案例采用一个基于Styblinski-Tang函数的仿真数据集,来展示在DTEmpower中进行数据清理和数据训练的效果。Styblinski-Tang函数如下所示:
其中,输入为5维,x1至x5的取值范围均为-5到5,随机生成300组样本,无噪声,同时在第一个数据中增加偏置800,来模拟异常点,作为建模数据集。数据建模的目标是获取从x(x1至x5)到y的预测模型。
构建的训练流程如下所示,数据读取之后,首先指定输入输出变量,然后将数据集随机分割,75%的数据用于训练,剩余数据用于测试,分别利用AIAgent和GBDT算法对训练数据集进行训练,之后利用测试数据集来进行模型对比测试。AIAgent算法训练耗时约8小时。
测试结果表明:
①异常清理控件可以准确识别出预先放置的异常点;
②由于数据集没有添加噪声,采用AIAgent算法训练得到的模型的响应面基本完全贴合理论值,精度远高于AdaBoost算法。
图 9 数据建模流程搭建
图 10 异常点清理
|
|
AIAgent的响应面,测试精度99.99% | Adaboost的响应面,测试精度79.9% |
2)机理融合案例
利用用户已知的参数间的部分机理关系,可以在有限数据集的条件下,建立精度更高,可解释性和迁移性更好的模型。本案例也采用一个仿真数据集,仿真函数如下所示:
其中,自变量x1,x2的取值范围均为[0, 1]。 给定a=7,b=-0.4,c=1,噪声10%,随机采样50组,作为建模数据集。数据建模的目标是建立从变量x1,x2到变量y的预测模型。
假设用户已知上述关系,就可以利用DTEmpower特征提取中的”自定义提取“工具,定义一个新的特征x3=x1*x2,然后再利用给定的参数多项式来拟合,来构建x3和y之间的函数关系,之后通过模型聚合工具,将自定义的特征提取模型和拟和的多项式模型组合,即可以得到从x1,x2预测y的DT模型。
在DTEmpower中搭建的建模流程如下,作为对比,同时采用了不经过特征提取,直接使用多项式回归和AdaBoost回归的训练算法同时训练,训练集占比50%。
基于25个有10%噪声的训练样本,机理模型训练得到的参数为,a=7.83,b=-0.05,c=1.16,与仿真模型基本吻合。融合了机理的DT模型的测试精度为99.68%,相对于其他算法有所提高,证明了DTEmpower在机理融合方面的强大能力。
图 11 机理聚合的建模流程
图 12 聚合模型的响应面
|
|
融合机理训练效果,测试精度99.68% |
多项式训练效果,测试精度94.89% |
AdaBoost训练效果,测试精度98.90%
3)和AIPOD相结合进行优化
DTEmpower建立的模型可直接导入到AIPOD 中,利用SilverBullet算法,进行优化问题求解。本案例直接采用案例1中构建的DT模型来进行优化过程展示,Styblinski-Tang 函数的全局最优点如表所示,此时y=-195.82995。
将训练得到的DT模型导入AIPOD中,然后使用Silverbullet算法开展优化,关闭BoundBreak特性,设置优化步数为200,经过169步优化后,算法提前中止,得到最优解如表所示,此时y=-195.826,校验误差2.5e-4%,基本贴合理论最优解。使用相同设置,基于GBDT算法训练得到的DT模型进行优化,129步后Silverbullet算法提前中止,得到的最优解如表所示,此时y=-151.172,预测误差8.3%。这也进一步印证了AIAgent训练算法的可靠性。
表 1 基于AIAgent和GBDT训练的DT模型进行优化的优化结果对比
图 13 将DT模型导入AIPOD
图 14 AIPOD中的寻优结果
4)智能预警
DTEmpower提供了从参数的波动、参数变化趋势,参数相关关系以及参数和动态基准值相对偏差等多方面对参数进行全面的健康度评估,本案例将展示其中基于动态基准值模型的预警效果。某设备有3个参数,其中参数1和参数2均随参数3而变化。某一时刻开始,参数3开始异常抬升,但是其变化仍在正常范围内,如下图所示,这种异常情况在传统的报警系统中是无法被发现的。
图 15 异常数据集
使用DTEmpower构建如下所示的预警建模流程,对于导入的数据集,首先使用一个回归模型构建以参数3为输入,参数1和参数2为输出的预测模型,然后将该预测模型传入智能预警控件,作为预警参数的基准值,预警限值设定为4。流程构建完成之后,启动训练,得到如下所示的两个参数的异常评分图,可以看到,建立的DT模型可以成功识别出参数2的异常,并准确告知异常原因,这对于运值人员快速处理故障具有重要意义。DTEmpower训练得到的预警模型可以直接保存导出,供DTRun在线调用,用于实时预警和故障诊断。
图 16 预警模型训练流程
|
|
图 17 参数1的异常预警结果 | 图 18 参数2的异常预警结果 |