Loading [MathJax]/jax/output/SVG/jax.js

进化算法优化GBDT的带钢卷取温度预测

皮理想, 崔桂梅

皮理想, 崔桂梅. 进化算法优化GBDT的带钢卷取温度预测[J]. 华南师范大学学报(自然科学版), 2022, 54(1): 122-127. DOI: 10.6054/j.jscnun.2022017
引用本文: 皮理想, 崔桂梅. 进化算法优化GBDT的带钢卷取温度预测[J]. 华南师范大学学报(自然科学版), 2022, 54(1): 122-127. DOI: 10.6054/j.jscnun.2022017
PI Lixiang, CUI Guimei. Optimizing GBDT's Strip Coiling Temperature Prediction with the Evolutionary Algorithm[J]. Journal of South China Normal University (Natural Science Edition), 2022, 54(1): 122-127. DOI: 10.6054/j.jscnun.2022017
Citation: PI Lixiang, CUI Guimei. Optimizing GBDT's Strip Coiling Temperature Prediction with the Evolutionary Algorithm[J]. Journal of South China Normal University (Natural Science Edition), 2022, 54(1): 122-127. DOI: 10.6054/j.jscnun.2022017

进化算法优化GBDT的带钢卷取温度预测

基金项目: 

国家自然科学基金项目 61763039

详细信息
    通讯作者:

    崔桂梅,Email: cguimei1@163.com

  • 中图分类号: TP183

Optimizing GBDT's Strip Coiling Temperature Prediction with the Evolutionary Algorithm

  • 摘要: 针对B钢厂2 250 mm热轧生产线层流冷却系统卷取温度预报命中率低的问题,采用差分进化算法优化后的梯度提升决策树建立带钢卷取温度预测模型(DE-GBDT),并对DE-GBDT预测模型与3个基础预测模型(梯度提升决策树(GBDT)、支持向量机(SVM)、小波神经网络(WNN)预测模型)以及差分进化算法优化后的支持向量机(DE-SVM)、小波神经网络(DE-WNN)进行对比。实验结果显示DE-GBDT预测模型能为提高带钢卷取温度控制精度提供有力支持:(1)与DE-SVM、DE-WNN预测模型相比,DE-GBDT预测模型的各项误差指标均最小,其中均方误差为18.232。(2)DE-GBDT预测模型的各项误差指标明显小于3个基础预测模型,其中,与GBDT预测模型相比,DE-GBDT预测模型的预测命中率提高了2.9%,均方误差降低了40.294,说明差分进化算法能明显提升模型性能。
    Abstract: Considering the low hit rate of the coiling temperature prediction of the laminar cooling system of the 2 250 mm hot rolling production line in Steelworks B, the gradient boosting decision tree optimized with the diffe-rential evolution algorithm (DE-GBDT) is used to establish the strip coiling temperature prediction model. Five regression prediction models, including Support Vector Machine (DE-SVM) and Wavelet Neural Network (DE-WNN) optimized with the differential evolution algorithm and the three basic prediction models (Gradient Boosting Decision Tree (GBDT), Support Vector Machine (SVM) and Wavelet Neural Network (WNN)), are added to the experiment for comparison. The experimental results show that DE-GBDT prediction model can provide strong su-pport for improving the precision of strip coiling temperature control: (1)compared with DE-SVM and DE-WNN, the DE-GBDT prediction model has the smallest error indicators and the mean square error is 18.232; (2)compared with the three basic prediction models, the error indicators of the DE-GBDT prediction model are significantly smaller than those of the three basic prediction models; compared with the GBDT prediction model, the hit rate of the DE-GBDT prediction model has increased by 2.9% and the mean square error has been reduced by 40.294, indicating that the differential evolution algorithm can significantly improve the model performance.
  • 电能是当今人类使用最为广泛的能源,其质量的好坏关系到电气设备的安全经济运行及节能降耗和产品质量等. 随着新能源发电和各种非线性负载的广泛使用,电力系统中的电能质量复合扰动事件日益增多,为了改善电能质量,电力部门需要快速判断出电能质量事件所包含的扰动类别,并采取相应措施迅速消除扰动影响[1].

    电能质量扰动检测识别常采用特征提取和分类识别相结合的方法. 扰动信号的特征提取常用短时傅里叶变换[2]、S变换[3]、小波变换[4]和变分模态分解(VMD)[5]等现代信号处理方法. 多个单一扰动的共存使得传统特征提取方法越发困难,随着近几年深度学习在图像识别领域自动提取特征的广泛应用[6],深度卷积神经网络(DCNN)和长短期记忆网络(LSTM)等多层网络结构也开始被用于电能质量扰动的自动提取和分类识别[7-9]. 现有大部分研究将电能质量复合扰动分类看成多分类学习问题,采用诸如决策树[10]、随机森林[3]、极限学习机(Extreme Learning Machine,ELM)[11]等机器学习模型进行分类识别. 而复合扰动分类本质上是一个多标签学习问题,部分学者提出了多标签排位小波支持向量机[12]、k近邻贝叶斯多标签分类法[13]等多标签学习模型进行识别的方案.

    扰动识别研究往往采用监督学习的方法,识别结果严重依赖于训练样本扰动类别标注的准确性. 随着电力系统监测器的广泛分布,大量多样化的未标注复合扰动信号样本较容易获取. 然而要使这部分样本数据参与监督学习模型的训练则需要具有电气知识的专业人士进行费时繁琐的人工标注. 由少量仿真产生的已标注样本训练的监督学习模型泛化性较差. 目前尚未有学者从半监督学习的角度对复合扰动识别进行研究.

    针对电能质量复合扰动识别过程中现有的监督学习方法未利用大量未标记数据蕴含扰动信息的问题,本文提出一种基于DJRELM的电能质量复合扰动识别的半监督学习方法. 算法首先利用Jerk流形正则化挖掘未标注扰动数据的内部结构,并通过堆叠JRELM-AE自动提取复合扰动特征,最终构建半监督多标签深度极限学习机模型实现复合扰动的分类识别.

    ELM是一种简单高效的单隐层前向神经网络[14],因其仅需随机初始化输入权重和隐层偏置,无需反向传播迭代调整,唯一需要求解的输出权重具有解析解,所以比传统神经网络训练的速度更快. 极限学习机自编码器(Extreme Learning Machine based Autoencoder,ELM-AE)是由Kasun提出的一种能够像自编码器一样重构输入的无监督网络结构[15]. 给定一个包含了n个训练样本的数据集{X, Y},其中已标注的样本集为{Xl, Yl}={xi, yi}(i=1, …, l),未标注的样本集表示为Xu={xu}(u=l+1, …, n-l), 包含d个输入节点、d个输出节点以及L个隐层节点的ELM-AE结构(图 1). 该模型的隐层输出h(xn)=g(axn+b),ab分别为正交随机权重向量和正交随机偏置,g为激活函数. 输出权重β可以通过最小化目标函数获得,公式如下:

    minβLELMAE=12β2+C2TΦβ2, (1)
    图  1  极限学习机自编码器的模型结构
    Figure  1.  The model structure of ELM-AE

    其中,C是正则化系数,通过对目标函数LELM-AE求关于β的偏导并将其设为0,可获得β在压缩、扩展和等维情况下的解:

    β={(IC+HHT)1HTX(d>L),HT(IC+HHT)1X(d<L),H1X(d=L). (2)

    流形正则化是半监督学习中一种方法,它使数据在新的投影空间中能够保持数据在原特征空间中的局部几何结构,其中图拉普拉斯与海森正则化的使用最为广泛. 然而当数据流形上存在拐点或者快速变化时,基于二阶导数的图拉普拉斯和海森正则化难以准确估计边缘分布参数. Jerk正则化使用分类函数的三阶导数来克服快速变化的流形结构中的问题,即内在几何信息在低阶正则化方法中取值消失的问题. 基于Jerk的能量作为嘈杂高振荡的子流形中数据分布的约束条件,从而更准确地描述数据的内在局部几何特征[16].

    给定一个平滑的黎曼流形M,由于存在大量未标注样本,M趋向形成一个单一的大型密集连接结构. 为了提取其中隐藏的内部信息,对点xM定义一个切向空间Tx(M)Rn. 给定函数f(xi)表示预测样本xi所属类别的映射函数,切向空间TxM获得后,Jerk能量EJ(f)定义为:

    EJ(f)=Mabcf2TxMT,MTxM dV(x), (3)

    其中,abcff的三阶协变导数,dV(x)是体积元素.

    在流形M的独立坐标系统为正交坐标系,该坐标系可以由k点邻域Nk(xi)进行主成分分析求得,所求m个最大特征值对应特征向量的特征空间近似. 点x三阶协变导数的范数收敛于f的Frobenius范数:

    abcf2TxMTxMTxM=up,q,r=1(3fxpxqxr)2, (4)

    给定xjNk(xi)(1≤tk),f在点xi的Jerk可以近似表示为:

    (3fxpxqxr|xi)2kj=1I(i)pqrf(xj), (5)

    其中,T是计算给定函数与三阶导数之间关系的Jerk算子,可以通过修正xi点的三阶泰勒展开式计算:

    f(xj)=f(xi)+mp=1Apxp(xj)+mp=1mq=pBpqxp(xj)xq(xj)+mmp=1mq=pmr=qCpqrxp(xj)xq(xj)xr(xj), (6)

    其中,xp(xj)xq(xj)xr(xj)表示定义在xi独立坐标系统的xj坐标系;ApBpqCpqr分别表示函数fxi点的一阶、二阶和三阶导数:

    Ap=fxp|xi,Bpq=122fxpxp|xi,Cpqr=163fxpxqxr|xi. (7)

    通过标准最小二乘法修正该多项式得:

    argminwRzkj=1{[f(Xj)f(Xi)](Φv)j}2, (8)

    其中,ΦΦRk×z是一个自定义矩阵,

    z=5(m23m+4)2.

    对应的基函数φ表示为[x1, …, xm, x1x1, …, x1x2, …, xmxm, x1x1x1x1x2x2xmxmxm], φ是最邻近点正交坐标系的单项式. 式(8)的解vRz,v=ΦΦf,其中fRk,fj=f(Xj),ΦΦΦ的伪逆矩阵. 函数fxi点的Jerk的Frobenius范数可以近似为:

    abcf2mp,q,r=1(kα=1T(i)pqrαfα)2=kα,β,γ=1fαfβfγT(i)αβγ, (9)

    其中,T(i)αβγ=mp,q,r=1T(i)p,q,r,αT(i)p,q,r,βT(i)p,q,r,γ. 最终整个Jerk能量的估计值ÊJ(f) 是所有数据点上的能量总和,表示为:

    ˆEJ(f)=ni=1mp,q,r=1(3fxpxqxr|xi)2=ni=1αNk(xi)βNk(xi)γNk(xi)fαfβfγI(i)αβγ=(fTJf), (10)

    其中,J是所有Ti的总和.

    为了在最小化重构误差的同时保持数据局部几何特性,将基于Jerk正则化的极限学习机自编码器(JRELM-AE)引入Jerk流形正则化到ELM-AE的目标函数中,重写后的目标函数表示如下:

    minβLJ=12β2+C2XHβ2+λ2Tr(FTJF) s.t. fi=h(xi)β(i=1,2,,l+u), (11)

    其中,λ是平衡参数;Tr(·)表示矩阵的迹;JR(l+u)×(l+u)是由已标注和未标注训练样本共同计算获得的Jerk算子;FR(l+u)×nk是行为f(xi)的矩阵. 输出权重矩阵β通过对目标函数LJ求导并设置为0获得如下解:

    β={(IL+CHTH+λHTJH)1HTCX(nL),HT(In+CHHT+λJHHT)1CX(n<L), (12)

    其中, ILIn是维度分别为Ln的单位矩阵.

    现有深度极限学习机多以ELM-AE作为基本模块搭建多层网络结构,实现数据样本特征的抽象提取. 为了在多层无监督学习中更好地保持数据的局部流形结构,提出的DJRELM对加入Jerk流形正则化的JRELM-AE进行堆叠, 其中前一层的输出作为后一层的输入,第k层的隐层输出Xk=[xk1,xk2,,xkN]T可以由第k-1层的隐层输出Xk-1通过下式计算获得:

    Xk=g((βk)TXk1). (13)

    与监督学习的深度极限学习机在分类层采用传统ELM作为分类器不同,DJRELM将经过多层JRELM-AE提取后的抽象特征送入一个引入Jerk正则化约束的半监督ELM中. 该半监督ELM的目标函数定义为:

    minβLELMAE=12β2+C2WYHβ2+λ2Tr(βTHTJHβ), (14)

    其中,W是一个对角矩阵,其中前l个对角元素为Wii=1/Nti(Nti为类别ti包含的训练样本个数),其余等于0. Lh为分类层半监督ELM隐层节点数. 输出权重矩阵β可以通过如下公式获得:

    β={(ILh+CHTWH+λHTJH)1HTCWY(nLh),HT(In+CWHHT+λJHHT)1CWY(n<Lh). (15)

    电能质量复合扰动分类属于典型的多标签学习问题,现有方法将多分类模型扩展到多标签学习应用多采用固定阈值进行标签和非标签的二分区. 本文提出的DJRELM在分类输出层增加了基于RBF核极限学习机的阈值学习模块,使阈值不再固定,而是随着样本的不同而产生变化.

    给定样本xj在多分类模型的预测输出为f(xi)={f1(xi), …, fq(xi)}T(i=1, …, l),根据样本xi在第j个标签的真实值tij将输出值划分为YiˉYi这2个相关和非相关标签区,具体表示为:

    {fj(xi)Yi(tij=1),fj(xi)¯Yi(tij=1). (16)

    样本xi的阈值A定义:

    A(xi)=max(¯Yi)+min(Yi)2, (17)

    阈值预测模块通过x1, A(x1), …, xl, A(xl)构建径向基核极限学习机的训练集,最终阈值学习函数A'表达式为:

    A(x)=KX(1ζ+ΩKELM)1Y, (18)

    其中,ζ为正则化系数,KX=K(X, X1)…K(X, Xl)和K(u, v)=exp(-γu-v2)是径向基核函数,ΩKELM=K(Xi, Xj)(i, j=1, …, l).

    DJRELM模型结构如图 2所示,DJRELM算法的具体流程如下:

    图  2  DJRELM模型结构图
    Figure  2.  The structure of DJRELM model

    输入:已标注的样本集{Xl, Yl}={xi, yi}(i=1, …, l),未标注样本集Xu={xj}(j=l+1, …, n-l);隐层层数K、每层节点个数、平衡参数和核参数等.

    输出:DJRELM的映射函数fRdRq.

    阶段一:提取原始数据集的特征;

    步骤一:通过{Xl, Xu}计算Jerk算子J

    步骤二:根据式(12)计算每层输出权重矩阵βi(i=1, …, K);

    步骤三:根据式(13)计算输入数据的特征Xk

    阶段二:半监督输出;

    步骤一:根据式(15)计算输出权重矩阵β

    步骤二:分类层半监督ELM输出样本xi的预测值f(xi)=XKiβ={f1(xi),,fq(xi)}T

    阶段三:阈值学习,多标签分类;

    步骤一:根据式(17)计算并构建训练集{Xl,Al}={xi,Ai}li=1

    步骤二:计算RBF核矩阵;

    步骤三:给定一个未知样本x, 预测标签集f(x)={yjfj(x)≥A(x) (j=1, …, m)},其中A(x)根据式(18)计算.

    本文数据集由软件仿真数据和硬件采集的标准功率源数据共同构成. 一方面,软件仿真数据由Matlab依据IEEE1159-2019以及文献[12]生成,共生成47种复合扰动;另一方面,以STM32为核心的硬件模块对标准功率源Fluke 6105A进行采样,受功率源自身限制只能采样到47种仿真复合扰动类型中的15种,具体采样平台如图 3所示.

    图  3  Fluke 6105A硬件采集平台
    Figure  3.  The Fluke 6105A platform of hardware sampling

    实验扰动数据集共包含9 400个样本,其中每个类型复合扰动各200个. 实验数据集划分参照文献[18]将所有样本进行四等分,轮流将其中的1份用于测试,其余3份用于训练. 训练集进一步划分为:已标注集,验证集和未标注集,3个集合各有2 350个扰动样本. 为防过拟合,进行四折交叉校验.

    本文首次从半监督多标签学习的角度对复合扰动分类进行研究,为了验证算法的有效性,在不同噪声(20~50 dB)环境中,采用3种监督学习算法(多层极限学习机(ML-ELM)[15]、随机映射多标签极限学习机(RDPEML)[17]、深度卷积神经网络(DCNN))和2种半监督学习算法(半监督极限学习机(SS-ELM)[18]和半监督深度极限学习机(SDELM)[19])与DJRELM进行对比. 5种算法中ML-ELM、SS-ELM、SDELM和DCNN属于多分类学习模型,为了公平比较,基于ELM的多分类模型均采用和DJRELM相同的阈值学习模块将模型扩展到多标签学习,DCNN则采用二分类交叉熵作为损失函数实现多标签学习,其中,浅层网络算法SS-ELM与RDPEML的输入为VMD算法提取的复合扰动特征.

    所有基于ELM的模型隐层节点数寻优范围为100至1 000,每次递增10个节点. 经过交叉校验后RDPEML和SSELM隐层节点分别取900和1 000. DJRELM、ML-ELM和SDELM均采用3层隐层结构,隐层节点数分别为{700, 780, 1 000}、{740, 560, 970}和{940, 730, 1 000}. 所有模型正则化系数C和平衡参数取值范围均为{10-10, 10-9, …, 109, 1010},经过寻优后3种方法正则化系数分别为{10-1, 101, 10-1,104}、{103, 102, 105,102}和{10-1, 101, 10-1,104}. DJREML、SDELM和SS-ELM中的平衡参数分别为{10-2, 10-2, 10-7,10-1}、{10-2}和{10-4}. 阈值预测模块正则化系数和核参数取值范围均为{10-5, 10-4, …, 104, 105},DJRELM、ML-ELM、SDELM、RDPEML和SS-ELM寻优后2个参数分别为{10-3, 100}、{101, 101}、{100, 101}、{10-1, 100}和{101, 102}. 计算流形正则化时运行的KNN算法的K取值范围为{10, 20, …, 90, 100},寻优后DJRELM和SDELM的K均取60,SS-ELM中K取80. DCNN由3个1维卷积层、3最大池化层、3个批量归一化层、1个全连接层和1个分类层组成. 每个卷积层后面依序连接一个池化层和归一化层. 3个卷积层的卷积核大小分别为1×8、1×8和1×16;每层卷积层的卷积核数目分别为512、480和256;3个池化层的核大小均为2×2. 全连接层包含38 400个神经元,最后的分类层输出节点数则与标签数目(7个)一致.

    复合扰动属于多标签分类问题,因此采用多标签学习领域常用的5个指标:汉明损失、排位损失、一类错误、覆盖率、平均精度进行评价. 给定输入空间X=Rd、有限集合L={1, 2, …, q}以及多标签测试数据集Z={(zi, Zi)∣1≤in},对于多标签分类器f(·)存在一个实值函数h:X×LRl1Yil2Yi时,存在h(xi, l1)>h(xi, l2).

    (1) 汉明损失(Hamming loss, LH)

    HlossZ(h)=1nni=11q|h(zi)ΔZi|, (19)

    其中, Δ表示2个集合的对称差.

    (2) 排位损失(Ranking loss, LR)

    LR(h)=1nni=11|Zi||ˉZi|{(l1,l2)h(zi,l1)h(zi,l2),(l1,l2)Zi×ˉZi}, (20)

    其中,Zi为集合ZZi的补集,h(·, ·)是与多标签分类器f(·)对应的实值函数.

    (3) 一类错误(One error, LO)

    LO(h)=1nni=1{[argmaxlLh(zi,l)]Zi}, (21)

    其中, 对于任意表达式{·},当括号内的待判别内容{·}为真时,{·}值为1,否则值为0.

    (4) 覆盖率(Coverage, LC)

    LC(h)=1nni=1maxlZiNh(zi,l)1, (22)

    其中Nh(zi, l)输出所有标签函数h(zi, l)中标签l对应函数的排序.

    (5) 平均精度(Average precision, PA)

    PA(f)=1nni=11|Zi|lZi|{lNh(zi,l)Nh(zi,l),lZi}|Nh(zi,l). (23)

    汉明损失用于评估测试样本总体误分率,剩余4个指标是用于评估预测样本不同标签的排名质量. 一类错误评估排名最高的标签不在样本真实标签集中的次数;覆盖率评估平均需要下移多少个序号才能在排序结果列表中覆盖样本包含的所有标签;排位损失评估样本中顺序错误标签的平均占比;平均精度评估排名在特定标签lZ以上的标签实际存在于Z中的平均分数. 5个指标中,平均精度越高越好,其余4个指标越小越好. 以上几种算法均在Intel I7-6800K 3.5 GHz CPU、32 GB内存、Win7系统下Matlab2020a的环境中运行.

    表 1给出不同噪声条件下,几种算法在复合扰动数据集上的多标签性能结果,本文提出的DJRELM在各项指标上均优于其他几种方法. 对比前期研究工作(RDPEML)[17]以及另外2个深层网络方法(ML-ELM和DCNN),本文算法的精度更高. 这一结果表明:流形正则化用于挖掘未标注数据信息从而提升分类性能. 引入图拉普拉斯正则化的SDELM和DJRELM较人工选取特征(结合半监督学习的SS-ELM识别方案)的性能明显提升,这一结果得益于流形正则化和深度网络结构. 与SDELM只是将图拉普拉斯正则化引入在分类层不同,DJRELM在每个ELM-AE中加入Jerk正则化的结构使其表现出更好的性能. 算法的运行时间上,因为每个隐层输出权重都需要带入Jerk算子,本文的方法训练时间较浅层ELM和普通多层ELM的更长,但相比DCNN的训练时间大大缩短. 这得益于多层ELM中每层参数无需进行反向传播调整.

    表  1  不同噪声条件下算法的评价结果
    Table  1.  The results of evaluating algorithms under different SNR values
    算法 SNR/dB 评价指标 运行时间/s
    汉明损失 排位损失 一类错误 覆盖率 平均精度 训练时间 测试时间
    DJRELM 20 0.105 8 0.045 6 0.045 3 1.856 8 0.939 0 54.93 0.44
    RDPEML 0.216 2 0.156 4 0.166 4 2.700 9 0.824 4 0.49 0.17
    SSELM 0.231 0 0.170 1 0.209 8 2.765 1 0.799 6 9.97 0.18
    ML-ELM 0.122 4 0.051 9 0.062 1 1.906 0 0.932 4 10.42 0.38
    SDELM 0.114 2 0.050 7 0.057 4 1.895 7 0.935 4 41.18 0.37
    DCNN 0.125 6 0.052 9 0.072 8 1.892 3 0.926 8 715.07 33.66
    DJRELM 30 0.100 5 0.042 4 0.046 4 1.836 2 0.946 0 60.72 0.42
    RDPEML 0.195 9 0.130 3 0.120 4 2.555 7 0.853 4 0.56 0.19
    SSELM 0.203 2 0.136 9 0.145 1 2.584 7 0.838 4 8.89 0.19
    ML-ELM 0.113 7 0.043 1 0.051 9 1.843 8 0.941 0 10.50 0.42
    SDELM 0.112 8 0.042 8 0.050 5 1.842 4 0.942 2 21.41 0.34
    DCNN 0.128 9 0.051 4 0.056 2 1.919 1 0.934 7 717.40 32.82
    DJRELM 40 0.098 6 0.047 3 0.052 8 1.866 1 0.943 2 34.80 0.36
    RDPEML 0.180 5 0.116 2 0.111 5 2.429 4 0.869 1 0.55 0.18
    SSELM 0.194 8 0.125 6 0.131 5 2.540 9 0.846 9 19.12 0.18
    ML-ELM 0.120 1 0.047 8 0.051 9 1.882 1 0.938 9 9.78 0.38
    SDELM 0.114 2 0.047 6 0.052 2 1.872 8 0.940 6 47.60 0.45
    DCNN 0.120 2 0.049 5 0.049 8 1.894 0 0.936 5 720.48 32.30
    DJRELM 50 0.100 2 0.045 1 0.037 9 1.876 6 0.946 3 52.73 0.38
    RDPEML 0.188 0 0.123 4 0.110 6 2.523 4 0.864 8 0.50 0.17
    SSELM 0.195 6 0.131 0 0.131 1 2.562 6 0.848 1 13.02 0.19
    ML-ELM 0.112 2 0.048 1 0.052 3 1.930 8 0.938 0 10.74 0.51
    SDELM 0.112 6 0.046 6 0.043 6 1.929 4 0.941 1 34.80 0.42
    DCNN 0.120 0 0.051 9 0.053 9 1.937 0 0.935 5 747.22 34.33
    下载: 导出CSV 
    | 显示表格

    为了进一步验证本文提出的Jerk流形正则化在多层ELM半监督学习中的有效性,实验采用基于另外两种常用的流形正则化(图拉普拉斯Laplacian、海森Hessian)的深度极限学习机在复合扰动数据集上进行性能比较. 表 2给出了不同噪声环境下不同流形正则化深度ELM的评价结果,基于Jerk流形正则化的深度结构分类效果均优于另外2种方法. 结果表明:Jerk流形正则化比Laplacian和Hessian流形在多层无监督学习中能更好地表征数据流形的内在局部几何信息,使半监督深度极限学习机具有更好的泛化性能.

    表  2  不同流形正则化深度ELM评价结果
    Table  2.  The results of evaluating deep ELM algorithms with different manifold regularizations
    SNR/dB 评价指标 流形正则化
    Laplacian Hessian Jerk
    20 汉明损失 0.113 7 0.110 4 0.105 8
    排位损失 0.049 3 0.047 1 0.045 6
    一类错误 0.055 9 0.052 7 0.045 3
    覆盖率 1.891 5 1.875 7 1.856 8
    平均精度 0.934 8 0.934 7 0.939 0
    30 汉明损失 0.108 9 0.105 2 0.100 5
    排位损失 0.042 8 0.042 6 0.042 4
    一类错误 0.049 1 0.047 7 0.046 4
    覆盖率 1.841 3 1.838 1 1.836 2
    平均精度 0.942 8 0.943 9 0.946 0
    40 汉明损失 0.108 7 0.102 4 0.098 6
    排位损失 0.047 5 0.047 4 0.047 3
    一类错误 0.049 2 0.047 0 0.046 4
    覆盖率 1.868 7 1.862 6 1.859 6
    平均精度 0.941 8 0.942 5 0.943 2
    50 汉明损失 0.110 3 0.107 9 0.100 2
    排位损失 0.046 0 0.045 5 0.045 1
    一类错误 0.040 1 0.039 2 0.037 9
    覆盖率 1.898 7 1.894 9 1.876 6
    平均精度 0.942 4 0.942 9 0.946 3
    下载: 导出CSV 
    | 显示表格

    图 4给出初始条件为不同数量已标注样本情况下,DJRELM、ML-ELM和多层拉普拉斯正则化ELM-AE构成的ML-GELM[20]在复合扰动数据集上的性能对比. 初始已标注样本数目为470,每次递增940个,该过程保持校验集数目与已标注集一致,最终添加至3 525个已标注样本. 由图 4可见,3种方法的性能均随着已标注样本所占比例的增加而逐步提升,其中DJRELM在5项指标中优于ML-ELM和ML-GELM,而当样本比例增长到一定值后,3种方法性能提升都有所放缓.

    图  4  不同数量初始已标注样本下的评价结果
    Figure  4.  The result of evaluation with respect to different numbers of labeled data

    在固定已标注样本数目的情况下,以未标注样本总数10%的数量向训练集添加未标注样本时,3种算法在复合扰动数据集上的性能变化曲线如图 5所示,随着未标注样本数量的增加,DJRELM的5个性能指标越来越优,即使在初始阶段训练集在没有任何标注样本的情况下,DJRELM也是3种方法中性能最佳的. 主要原因是流形正则化在纯监督学习的情况下也有效.

    图  5  不同数量未标注样本下的评价结果
    Figure  5.  The results of evaluation with respect to different numbers of unlabeled data

    针对电网实测复合扰动样本多数未标注类别而无法加入监督学习模型训练的情况,提出一种新型的基于Jerk流形正则化的DJRELM-ML半监督扰动识别模型. 算法在仿真和硬件采集数据实验结果表明,Jerk正则化有效利用未标注样本的内含信息,提升了复合扰动半监督学习精度,较图拉普拉斯和海森正则化具有更好的局部几何结构保持能力和外推能力. DJRELM较单层ELM和传统半监督深层ELM的识别精度更高,能更有效地分类识别复合扰动. 尽管如此本文提出的DJRELM模型还有一些不足之处,如模型超参数寻优较耗时,下一步研究将努力减少需要调整的超参数数目. 另外,Jerk算子计算时间较长使得训练难以实时,在线训练的研究也是未来的一个工作方向.

  • 图  1   DE-GBDT预测模型的建模流程

    Figure  1.   The modeling process of the DE-GBDT prediction model

    图  2   3个优化后的预测模型的误差分布

    Figure  2.   The error distribution of three prediction models after optimization

    图  3   DE-GBDT预测模型的卷取温度拟合效果

    Figure  3.   The fitting effect of coiling temperature of the DE-GBDT prediction model

    图  4   3个基础预测模型的误差分布

    Figure  4.   The error distribution of three basic prediction models

    表  1   种群规模超参数选取

    Table  1   The selection of population size hyperparameters

    [G, NP] MSE
    [20, 10] 19.707
    [20, 30] 18.771
    [20, 50] 18.232
    [20, 70] 18.232
    下载: 导出CSV

    表  2   3个优化后的预测模型的评价指标

    Table  2   The valuation indexes of three prediction models after optimization

    模型 MSE RMSE 预测命中率/%
    DE-GBDT 18.232 4.269 98.5
    DE-SVM 26.188 5.117 97.4
    DE-WNN 91.807 9.581 92.3
    下载: 导出CSV

    表  3   3个基础预测模型的评价指标

    Table  3   The evaluation indexes of three basic prediction models

    模型 MSE RMSE 预测命中率/%
    GBDT 58.526 7.657 95.6
    SVM 82.214 9.067 93.3
    WNN 152.046 12.331 88.5
    下载: 导出CSV
  • [1] 谭明皓, 柴天佑. 基于案例推理的层流冷却过程建模[J]. 控制理论与应用, 2005(2): 248-253;260. doi: 10.3969/j.issn.1000-8152.2005.02.015

    TAN M H, CAI T Y. Modeling of the laminar cooling process with case_based reasoning[J]. Control Theory & Applications, 2005(2): 248-253;260. doi: 10.3969/j.issn.1000-8152.2005.02.015

    [2] 李振垒, 胡啸, 李海军, 等. 热轧带钢超快冷模型及自适应控制系统的研究和开发[J]. 钢铁, 2013, 48(2): 44-48. doi: 10.3969/j.issn.1672-4224.2013.02.013

    LI Z L, HU X, LI H J, et al. Study and development of ultra-fast cooling model and self-adaptive control system of hot strip rolling[J]. Iron and Steel, 2013, 48(2): 44-48. doi: 10.3969/j.issn.1672-4224.2013.02.013

    [3] 孙铁军, 杨卫东, 程艳明, 等. 用改进遗传算法优化的带钢卷取温度预报模型[J]. 控制理论与应用, 2015, 32(8): 1106-1113.

    SUN T J, YANG W D, CHENG Y M, et al. Improved genetic algorithm for optimizing prediction model of strip coiling temperature[J]. Control Theory & Applications, 2015, 32(8): 1106-1113.

    [4] 马丽坤, 韩斌, 王君, 等. 基于BP神经网络的热轧带钢卷取温度预报[J]. 钢铁研究学报, 2006(11): 27-30. doi: 10.3321/j.issn:1001-0963.2006.11.007

    MA L K, HAN B, WANG J, et al. Prediction of coiling temperature of hot rolled strip based on BP Neural Networks[J]. Journal of Iron and Steel Research, 2006(11): 27-30. doi: 10.3321/j.issn:1001-0963.2006.11.007

    [5] 石孝武, 申群太. 带钢卷取温度高精度预报的遗传神经网络方法[J]. 计算机工程与应用, 2008(16): 225-227;235. doi: 10.3778/j.issn.1002-8331.2008.16.069

    SHI X W, SHEN Q T. Genetic neural network method for high-accuracy prediction of coiling temperature of hot rolled strip[J]. Computer Engineering and Applications, 2008(16): 225-227;235. doi: 10.3778/j.issn.1002-8331.2008.16.069

    [6] 郭强, 张超, 莫天生. 人工鱼群神经网络在热连轧卷取温度预报中的应用[J]. 科技导报, 2010, 28(1): 74-77.

    GUO Q, ZHANG C, MO T S. Application of artificial fish-swarm neural network in coiling temperature forecasting of hot rolled strip[J]. Science & Technology Review, 2010, 28(1): 74-77.

    [7] 徐继伟, 杨云. 集成学习方法: 研究综述[J]. 云南大学学报(自然科学版), 2018, 40(6): 1082-1092. https://www.cnki.com.cn/Article/CJFDTOTAL-YNDZ201806004.htm

    XU J W, YANG Y. A survey of ensemble learning approaches[J]. Journal of Yunnan University(Natural Science Edition), 2018, 40(6): 1082-1092. https://www.cnki.com.cn/Article/CJFDTOTAL-YNDZ201806004.htm

    [8] 王伟, 匡祯辉, 谢少捷, 等. 热镀锌钢卷力学性能GBDT预报模型[J]. 福州大学学报(自然科学版), 2020, 48(5): 602-609. https://www.cnki.com.cn/Article/CJFDTOTAL-FZDZ202005010.htm

    WANG W, KUANG Z H, XIE S J, et al. Research on GBDT prediction model of mechanical properties of hot dip galvanized steel coils[J]. Journal of Fuzhou University(Natural Science Edition), 2020, 48(5): 602-609. https://www.cnki.com.cn/Article/CJFDTOTAL-FZDZ202005010.htm

    [9] 谷云东, 马冬芬, 程红超. 基于相似数据选取和改进梯度提升决策树的电力负荷预测[J]. 电力系统及其自动化学报, 2019, 31(5): 64-69. https://www.cnki.com.cn/Article/CJFDTOTAL-DLZD201905012.htm

    GU Y D, MA D F, CHEN H C. Power load forecasting based on similar-data selection and improved gradient boosting decision tree[J]. Proceedings of the CSU-EPSA, 2019, 31(5): 64-69. https://www.cnki.com.cn/Article/CJFDTOTAL-DLZD201905012.htm

    [10]

    FRIEDMAN J H. Greedy function approximation: a gradient boosting machine[J]. The Annals of Statistics, 2001, 29(5): 1189-1232. doi: 10.1214/aos/1013203450

    [11]

    CORTES C, VAPNIK V N. Support vector networks[J]. Machine Learning, 1995, 20(3): 273-297.

    [12]

    ZHANG Q H, BENVENISTE. A wavelet network[J]. IEEE Traps on Neuralnetworks, 1992, 3(6): 889-898.

    [13] 段大高, 盖新新, 韩忠明, 等. 基于梯度提升决策树的微博虚假消息检测[J]. 计算机应用, 2018, 38(2): 410-414;420. doi: 10.3969/j.issn.1001-3695.2018.02.020

    DUAN D G, GAI X X, HAN Z M, et al. Micro-blog misinformation detection based on gradient boost decision tree[J]. Journal of Computer Applications, 2018, 38(2): 410-414;420. doi: 10.3969/j.issn.1001-3695.2018.02.020

    [14]

    CHENG J, CHEN X H. Travel time prediction model of freeway based on gradient boosting decision tree[J]. Journal of Southeast University(English Edition), 2019, 35(3): 393-398.

    [15]

    DENG S K, WANG C G, WANG M Y, et al. A gradient boosting decision tree approach for insider trading identification: an empirical model evaluation of China stock market[J]. Applied Soft Computing Journal, 2019, 83: 105652-105677. doi: 10.1016/j.asoc.2019.105652

    [16]

    STORN R, PRICE K. Differential evolution: a simple and efficient heuristic for global optimization over continuous spaces[J]. Journal Global Optimization, 1997, 11(4): 341-359. doi: 10.1023/A:1008202821328

    [17] 丁青锋, 尹晓宇. 差分进化算法综述[J]. 智能系统学报, 2017, 12(4): 431-442.

    DING Q F, YIN X Y. Research survey of differential evolution algorithms[J]. CAAI Transactions on Intelligent Systems, 2017, 12(4): 431-442.

    [18] 汪慎文, 丁立新, 张文生, 等. 差分进化算法研究进展[J]. 武汉大学学报(理学版), 2014, 60(4): 283-292.

    WANG S W, DING L X, ZHANG W S, et al. Survey of differential evolution[J]. Journal of Wuhan University(Natural Science Edition), 2014, 60(4): 283-292.

图(4)  /  表(3)
计量
  • 文章访问数:  343
  • HTML全文浏览量:  104
  • PDF下载量:  70
  • 被引次数: 0
出版历程
  • 收稿日期:  2021-06-21
  • 网络出版日期:  2022-03-13
  • 刊出日期:  2022-02-24

目录

/

返回文章
返回