• 注册
    • 查看作者
    • 基于XGBoost两层算法模型的风机齿轮箱输入轴故障监测与诊断方法

        1 引言

        

        随着我国对新能源开发的大力支持,风电行业的迅速发展,各地区风机安装容量不断增加[1]。但风电机组受工作环境、天气变化影响可能发生不同类型的故障,如齿轮箱油温异常、变桨电机过温损坏,轴向窜动、断齿等,导致风电机组停止运作。为降低风电机组由于长时间停机检修导致的利益损失,作为关键部位的齿轮箱输入轴提前预警研究具有重要意义。

        

        一般在齿轮箱故障监测与诊断研究过程中,有两个关键环节:特征工程和建模构建。在特征工程即关键特征选取方法方面,已经有很多富有成效的研究。国内学者李大中[2]、姚万业[3]等通过灰色关联度分析进行特征变量提取;王桂松等[4]利用Pearson相关系数方法确定特征变量。在模型构建方面,早期传统的预测方法,比如小波分析[5]、模糊理论[6]、信息融合[7]等已经得到广泛应用。深度学习模型也被逐渐运用到此领域,张少敏等[8]采用朴素贝叶斯、反向传播神经网络算法对风电机组进行状态监测和诊断。韦古强等[9]基于随机森林算法对齿轮箱故障进行分类,实现智能诊断。张欣欣等[10]基于振动信号的分析建立回声状态网络算法预警模型。许骏龙等[11]运用最小二乘法支持向量机对风电机组齿轮箱故障进行预测诊断。

        

        在综合考虑实际数据冗杂、预测时效性、模型训练效率、在线工程运用等众多因素基础上,本文首先改进了传统齿轮箱输入轴温度(CI_GearboxInputShaftTemp)影响因素(特征)的筛选方法,提出了融合专家检验和机器学习模型的特征提取算法;其次建立两层故障树机器学习模型对风电机组进行故障监测与故障诊断,能够在风机故障停机前提前预知故障状态和定位故障原因。

        

        2 数据预处理

        

        2.1 数据来源及预处理

        

        本文基于日照莒县风场的1号风机进行建模研究,从SCADA数据库中提取了2018~2019年911520条、37个特征的分钟级原始数据,随后进行数据预处理。首先,针对由齿轮箱输入轴温度异常导致的故障进行诊断,考虑到故障发生前一段时间内温度上升的前瞻性和故障发生后一段时间温度的突变性,需要对故障前后的一段数据进行筛选舍弃,以得到最佳的训练模型;其次,提取的数据中会存在许多与建模无关的冗余时序数据,如风机待机、停机时的数据,为此删除故障时间段前后各24小时数据,以齿轮箱并网状态产生的数据为基础展开研究,处理后数据共550729条。

        

        2.2 变量筛选

        

        为减少特征变量的冗余,更好地训练高效机器学习模型,需对输入变量进行必要的特征选择,获得高灵敏度的特征集,简化模型结构,提升模型精度。本文采用专家经验与模型筛选排序相结合的特征选择方案:利用三种机器学习模型进行变量重要性排序,即Pearson相关系数、XGBoost模型和CatBoost模型,对可能影响齿轮箱输入轴温度的37个输入变量的重要性进行排序,加权打分后获取排序表。结合风电专家的经验,各专家独立给出多种输入变量的相关性排序,并对模型排序结果赋予各不相同的权重并综合打分得出总排序(表1)。

        

        在训练初始的37个输入变量模型之后,选取重要性排序靠前的15个输入变量训练新的模型;进一步尝试在15个输入变量基础上选取更精简的9个变量。对比三个特征集,得到的模型结果见表2。由于9个特征集的精确度低于15个特征与37个特征,所以排除9个特征集方案,15个特征与37个特征表现出的模型精度相差不大,但模型耗时降低一半,综合考虑时效性、精确性,确定为15个特征集为最优集合。

        

        定义上述15个输入变量与齿轮箱输入轴温度组成的集合为第一层故障预测模型,测试新数据时,如果预测值与真实值有显著差异将判断出齿轮箱发生故障;进一步探究影响故障发生的原因,进行变量诊断,需以第一层模型的15个输入变量作为被解释变量建立第二层模型。部分变量,如机舱环境温度不能够给出下侧影响因素,故结合风电专家对齿轮箱部件的经验认识,对其中13个特征变量给出下侧输入变量,这13个模型的集合构成第二层故障诊断模型。

        

        3 基于XGBoost算法的两层预警模型

        

        3.1 模型介绍

        

        XGBoost是提升方法中的一个可扩展的机器学习系统,由多棵回归树(Classification AndRegression Trees,CART)集成[11],在梯度提升过程中运用此方法可将优化目标对函数的梯度转换为函数对当前预测值的导数的问题。目前XGBoost算法已经广泛应用于能源电力、医疗疾病诊断、金融保险服务等领域。传统的梯度提升树算法(Gradient Boosting Decision Tree,GBDT)只通过一阶导数对代价函数进行优化,而XGBoost则是改进了GBDT,对代价函数进行二阶泰勒展开,相比之下XGBoost可以加快优化速度,降低复杂程度,减少计算时间。

        

        本文提出一种基于XGBoost算法的两层模型用于齿轮箱输入轴故障监测与故障原因诊断。对原始数据进初步清洗后,本文实施多模型与经验混合筛选特征变量,以权重赋值方式综合排名,得到用于模型训练的维度特征。

        

        图1中故障监测是指基于齿轮箱的多特征原理建立回归分析,利用风机正常状态下的特征数据训练模型,将模型嵌入风机监测系统中持续输入系统后台的实时监测数据,作用特点体现于输入数据中故障数据在模型中的异常趋势会表现出与先前正常数据训练的风机正常状态下模型的趋势图产生分离,从而运用风机故障从故障先兆到故障停机的时效性。在两趋势分离之初进行态势分析,模型根据告警阈值,趋势图到达告警阈值预测为故障的结果,从而完成齿轮箱故障状态的监测。

        

        当风机从齿轮箱部件的第一层模型结果判断为故障状态,接下来的目标是进行齿轮箱故障诊断,排查故障原因,实现风机风控防治。该目标体现在第二层子模型中的模型训练趋势图与实时模型趋势图的分离趋势对比,拟合关系,从多个特征变量的子模型中筛选引起故障的因素。同组数据在不同输入变量模型下的拟合趋势呈现多种结果,对比趋势图的拟合好坏及序列曲线的波动程度,分别建立多个特征变量与齿轮箱输入轴温度的联系,对故障进行初步的诊断。实际运用中,可结合技术人员与模型初步诊断的结果同步对齿轮箱部件实施检查和维护,将人工经验与机器学习融合,对实际事件做出判断,在一定程度上加入客观因素的影响。

        

        3.2 参数调优

        

        模型涉及树的深度、树的个数、叶子节点、学习率参数的调优,本文利用网格搜索的方法寻找最优的参数组合,该方法需要预先优化设置而不是通过训练得到参数。本质是人为的规定一些参数组合,通过网格搜索的方式,能够得到所有设定组合之中使得验证集的误差最小的局部最优参数组合。由于网格搜索的计算复杂度是随着需要优化的超参数规模的增长呈现指数增长的,因此就仅仅适用于参数较少的情况,为避免过拟合,文本XGBoost模型中用到四个参数。

        

        3.3 评价指标

        

        为检验XGBoost模型的准确度,引入了实际均值(某段时间内齿轮箱输入轴实测温度的平均值),预测均值(某段时间内齿轮箱输入轴模型预测温度的平均值),MSE,MAE,平均相对误差绝对值(Mean Absolute Percent Error,MAPE),R2(RSquared)六项评价指标,据此对整个模型训练的优劣进行评判。其中R2称为可决系数,取值范围为[0,1],该值越大表面模型拟合效果越好。

        

        4 模型验证

        

        4.1 第一层模型

        

        4.1.1 模型对比

        

        建立模型前了解到,对于线性回归分析随机森林、支持向量机、CatBoost、XGBoost等模型都适用,为了选取适合研究的最佳模型,对上述算法分别进行模型。选取一号风机正常样本数据进行模型实验,选取80%的数据建立模型,采用20%数据进行模型的检验,在参数调优后对比不同模型的评价指标(表4)。

        

        表4数据均在各个模型表4 模型对比表的最优参数下获得,评估结果(图2)显示:XGBoost的均方误差(MSE)、平均绝对误差(MAE)、平均相对误差绝对值(MAPE)均最小。各模型拟合优度R2(R squared)差距很小,但XGBoost的更接近于1,说明解释变量与被解释变量的相关性最大。虽然随机森林的耗时最短,但通过实际应用以及综合考虑,模型的准确率更加重要。对于齿轮箱输入轴温度预警,XGBoost算法是最优的模型,具有准确率高、耗时较短的优点,所以本文选取XGBoost作为最终的算法建立模型。

        

        4.1.2 有效性验证

        

        齿轮箱发生故障前齿轮箱输入轴温度会发生变化,导致实测温度与预测温度发生偏离,并会持续一段时间有利于判断齿轮箱是否发生故障,当齿轮箱发生故障时,两者的偏离程度会更大,基于第一层模型真实值与预测值趋势分离程度作残差图进行故障监测。图3选取包含故障段的连续样本8000条,对故障区域及其两侧进行的有效性验证。

        

        从残差分析图(图3)可以看出,a点的残差波动在正常范围内。从a点后残差值上下波动异常,判断齿轮箱有发生故障的趋势。从b处开始,残差波动持续上升到c处,对风机齿轮箱进行检修,检查发现联轴器缓冲垫磨损严重。更换新的缓冲垫后,在c处后重启运行残差波动d处后残差趋于平缓,风机再次正常运行。该残差分析在故障预测中进行了有效性验证,实验结果表明该预测模型预测效果好。

        

        4.2 第二层模型

        

        同步对比该时间段内第二层子模型的残差图,以子模型出现与本身残差趋势不同类的持续段为依据,判断是否对第一层主模型有显著的影响,下面选取具有代表性的一个子模型给出分析。

        

        齿轮箱侧转子轴承温度:根据变量残差趋势可知,在样本点4000~4853内,残差走向有一段持续的上升,而后极速下降,两端正常状态下的残差在0上下持续的波动,与第一层模型具有相同的变化规律。诊断出故障为侧转子轴承温度高,重点排查该部位润滑油油位、加热保护器、传感器、联轴器问题。根据实验结果,结合此段数据故障字段记录表,齿轮箱故障确实出于联轴器缓冲垫磨损。

        

        每一个子模型得出的结果都是各不相同的残差走向图,需要结合变量的特征来对比判断,例如是否有持续的上升或下降,是否在故障后极速的波动且程度较大,具有异于其他样本点的形状等。基于人主观的去根据图形判断与实际的情况在一定程度上仍然会有偏差和错误,因此最后给出的结论也是在误差允许的范围。

        

        5 结语

        

        本文改进传统筛选特征选择方法单一的不足,利用信息融合的思想在特征变量选取上结合专家经验和机器学习特征提取算法模型(Pearson相关系数、XGBoost、CatBoost)共同给出高灵敏度关键特征集。基于各个变量变化趋势的同向性建立两层模型树进行故障状态监测与故障原因诊断。以两层模型并行的模式同步对齿轮箱实施监测并给予原因剖析。通过四种算法训练结果的对比显示,基于XGBoost算法建立的模型检测速度相对较快,检测结果比较准确,综合结果最优。在此基础上,选取包含故障时间段的连续样本点作为残差分析的起点,对比两层模型的故障征兆给出结论,尽早的实施措施,降低损失。

    • 0
    • 0
    • 0
    • 234
    • 请登录之后再进行评论

      登录
    • 做任务
    • 实时动态
    • 偏好设置
    • 单栏布局 侧栏位置: