The Deep Jerk-regularized Extreme Learning Machine for Complex Power Quality Disturbance Classification
-
摘要: 为了有效利用电能质量复合扰动识别中存在的大量难以标注的实测样本,提出了一种基于Jerk流形正则化深度极限学习机(DJRELM)的半监督扰动学习方法. 算法通过堆叠嵌入Jerk流形正则化的极限学习机自编码器(JRELM-AE)实现在复合扰动特征自动提取的同时保持数据内部流形结构. 分类层通过阈值预测极限学习机和Jerk正则化半监督极限学习机的结合将多层网络扩展到多标签半监督分类应用. 实验结果表明:该方法在不同噪声环境下的分类准确率均高于几种基于极限学习机的监督学习、半监督学习算法、传统多层极限学习机和深度卷积神经网络,具有理论意义和实用价值.Abstract: In order to make full use of a large number of unlabeled measured samples in complex power quality disturbance classification, a semi-supervised disturbance classification method based on the deep Jerk-regularized extreme learning machine (DJRELM) is proposed. The method stacks the Jerk-regularized ELM autoencoder (JRELM-AE) to realize the automatic feature extraction while exploring the intrinsic geometric structure of the unlabeled data. The combination of semi-supervised Jerk-regularized ELM and threshold learning ELM in the classification layer extends the multi-layer network to multi-label semi-supervised learning. Experimental results show that the proposed method outperforms several ELM-based supervised and semi-supervised algorithms as well as the state-of-the-art multi-layer ELM algorithms and deep convolutional neural networks under different noise environments. The new method has both academic and practical value.
-
电能是当今人类使用最为广泛的能源,其质量的好坏关系到电气设备的安全经济运行及节能降耗和产品质量等. 随着新能源发电和各种非线性负载的广泛使用,电力系统中的电能质量复合扰动事件日益增多,为了改善电能质量,电力部门需要快速判断出电能质量事件所包含的扰动类别,并采取相应措施迅速消除扰动影响[1].
电能质量扰动检测识别常采用特征提取和分类识别相结合的方法. 扰动信号的特征提取常用短时傅里叶变换[2]、S变换[3]、小波变换[4]和变分模态分解(VMD)[5]等现代信号处理方法. 多个单一扰动的共存使得传统特征提取方法越发困难,随着近几年深度学习在图像识别领域自动提取特征的广泛应用[6],深度卷积神经网络(DCNN)和长短期记忆网络(LSTM)等多层网络结构也开始被用于电能质量扰动的自动提取和分类识别[7-9]. 现有大部分研究将电能质量复合扰动分类看成多分类学习问题,采用诸如决策树[10]、随机森林[3]、极限学习机(Extreme Learning Machine,ELM)[11]等机器学习模型进行分类识别. 而复合扰动分类本质上是一个多标签学习问题,部分学者提出了多标签排位小波支持向量机[12]、k近邻贝叶斯多标签分类法[13]等多标签学习模型进行识别的方案.
扰动识别研究往往采用监督学习的方法,识别结果严重依赖于训练样本扰动类别标注的准确性. 随着电力系统监测器的广泛分布,大量多样化的未标注复合扰动信号样本较容易获取. 然而要使这部分样本数据参与监督学习模型的训练则需要具有电气知识的专业人士进行费时繁琐的人工标注. 由少量仿真产生的已标注样本训练的监督学习模型泛化性较差. 目前尚未有学者从半监督学习的角度对复合扰动识别进行研究.
针对电能质量复合扰动识别过程中现有的监督学习方法未利用大量未标记数据蕴含扰动信息的问题,本文提出一种基于DJRELM的电能质量复合扰动识别的半监督学习方法. 算法首先利用Jerk流形正则化挖掘未标注扰动数据的内部结构,并通过堆叠JRELM-AE自动提取复合扰动特征,最终构建半监督多标签深度极限学习机模型实现复合扰动的分类识别.
1. Jerk正则化极限学习机自编码器
1.1 极限学习机自编码器
ELM是一种简单高效的单隐层前向神经网络[14],因其仅需随机初始化输入权重和隐层偏置,无需反向传播迭代调整,唯一需要求解的输出权重具有解析解,所以比传统神经网络训练的速度更快. 极限学习机自编码器(Extreme Learning Machine based Autoencoder,ELM-AE)是由Kasun提出的一种能够像自编码器一样重构输入的无监督网络结构[15]. 给定一个包含了n个训练样本的数据集{X, Y},其中已标注的样本集为{Xl, Yl}={xi, yi}(i=1, …, l),未标注的样本集表示为Xu={xu}(u=l+1, …, n-l), 包含d个输入节点、d个输出节点以及L个隐层节点的ELM-AE结构(图 1). 该模型的隐层输出h(xn)=g(axn+b),a和b分别为正交随机权重向量和正交随机偏置,g为激活函数. 输出权重β可以通过最小化目标函数获得,公式如下:
minβLELM−AE=12‖β‖2+C2‖T−Φβ‖2, (1) 其中,C是正则化系数,通过对目标函数LELM-AE求关于β的偏导并将其设为0,可获得β在压缩、扩展和等维情况下的解:
β={(IC+HHT)−1HTX(d>L),HT(IC+HHT)−1X(d<L),H−1X(d=L). (2) 1.2 Jerk流形正则化
流形正则化是半监督学习中一种方法,它使数据在新的投影空间中能够保持数据在原特征空间中的局部几何结构,其中图拉普拉斯与海森正则化的使用最为广泛. 然而当数据流形上存在拐点或者快速变化时,基于二阶导数的图拉普拉斯和海森正则化难以准确估计边缘分布参数. Jerk正则化使用分类函数的三阶导数来克服快速变化的流形结构中的问题,即内在几何信息在低阶正则化方法中取值消失的问题. 基于Jerk的能量作为嘈杂高振荡的子流形中数据分布的约束条件,从而更准确地描述数据的内在局部几何特征[16].
给定一个平滑的黎曼流形M,由于存在大量未标注样本,M趋向形成一个单一的大型密集连接结构. 为了提取其中隐藏的内部信息,对点x∈M定义一个切向空间Tx(M)⊂Rn. 给定函数f(xi)表示预测样本xi所属类别的映射函数,切向空间TxM获得后,Jerk能量EJ(f)定义为:
EJ(f)=∫M‖∇a∇b∇cf‖2TxM⊗T,M⊗TxM dV(x), (3) 其中,∇a∇b∇cf是f的三阶协变导数,dV(x)是体积元素.
在流形M的独立坐标系统为正交坐标系,该坐标系可以由k点邻域Nk(xi)进行主成分分析求得,所求m个最大特征值对应特征向量的特征空间近似. 点x三阶协变导数的范数收敛于f的Frobenius范数:
‖∇a∇b∇cf‖2TxM⊗TxM⊗TxM=u∑p,q,r=1(∂3f∂xp∂xq∂xr)2, (4) 给定xj∈Nk(xi)(1≤t≤k),f在点xi的Jerk可以近似表示为:
(∂3f∂xp∂xq∂xr|xi)2≈k∑j=1I(i)pqrf(xj), (5) 其中,T是计算给定函数与三阶导数之间关系的Jerk算子,可以通过修正xi点的三阶泰勒展开式计算:
f(xj)=f(xi)+m∑p=1Apxp(xj)+m∑p=1m∑q=pBpqxp(xj)xq(xj)+m∑mp=1m∑q=pm∑r=qCpqrxp(xj)xq(xj)xr(xj), (6) 其中,xp(xj)、xq(xj)和xr(xj)表示定义在xi独立坐标系统的xj坐标系;Ap、Bpq和Cpqr分别表示函数f在xi点的一阶、二阶和三阶导数:
Ap=∂f∂xp|xi,Bpq=12∂2f∂xp∂xp|xi,Cpqr=16∂3f∂xp∂xq∂xr|xi. (7) 通过标准最小二乘法修正该多项式得:
argminw∈Rzk∑j=1{[f(Xj)−f(Xi)]−(Φv)j}2, (8) 其中,ΦΦ∈Rk×z是一个自定义矩阵,
z=5(m2−3m+4)2. 对应的基函数φ表示为[x1, …, xm, x1x1, …, x1x2, …, xmxm, x1x1x1…x1x2x2…xmxmxm], φ是最邻近点正交坐标系的单项式. 式(8)的解v∈Rz,v=ΦΦ†f,其中f∈Rk,fj=f(Xj),ΦΦ†为Φ的伪逆矩阵. 函数f在xi点的Jerk的Frobenius范数可以近似为:
‖∇a∇b∇cf‖2≈m∑p,q,r=1(k∑α=1T(i)pqrαfα)2=k∑α,β,γ=1fαfβfγT(i)αβγ, (9) 其中,T(i)αβγ=m∑p,q,r=1T(i)p,q,r,αT(i)p,q,r,βT(i)p,q,r,γ. 最终整个Jerk能量的估计值ÊJ(f) 是所有数据点上的能量总和,表示为:
ˆEJ(f)=n∑i=1m∑p,q,r=1(∂3f∂xp∂xq∂xr|xi)2=n∑i=1∑α∈Nk(xi)∑β∈Nk(xi)∑γ∈Nk(xi)fαfβfγI(i)αβγ=(fTJf), (10) 其中,J是所有Ti的总和.
1.3 Jerk正则化极限学习机的自编码器
为了在最小化重构误差的同时保持数据局部几何特性,将基于Jerk正则化的极限学习机自编码器(JRELM-AE)引入Jerk流形正则化到ELM-AE的目标函数中,重写后的目标函数表示如下:
minβLJ=12‖β‖2+C2‖X−Hβ‖2+λ2Tr(FTJF) s.t. fi=h(xi)β(i=1,2,⋯,l+u), (11) 其中,λ是平衡参数;Tr(·)表示矩阵的迹;J∈R(l+u)×(l+u)是由已标注和未标注训练样本共同计算获得的Jerk算子;F∈R(l+u)×nk是行为f(xi)的矩阵. 输出权重矩阵β通过对目标函数LJ求导并设置为0获得如下解:
β={(IL+CHTH+λHTJH)−1HTCX(n⩾ (12) 其中, IL和In是维度分别为L和n的单位矩阵.
2. Jerk流形正则化深度极限学习机
现有深度极限学习机多以ELM-AE作为基本模块搭建多层网络结构,实现数据样本特征的抽象提取. 为了在多层无监督学习中更好地保持数据的局部流形结构,提出的DJRELM对加入Jerk流形正则化的JRELM-AE进行堆叠, 其中前一层的输出作为后一层的输入,第k层的隐层输出 {{\boldsymbol{X}}^{k}}={{\left[ \boldsymbol{x}_{1}^{k}, \boldsymbol{x}_{2}^{k}, \cdots , \boldsymbol{x}_{N}^{k} \right]}^{\text{T}}} 可以由第k-1层的隐层输出Xk-1通过下式计算获得:
\boldsymbol{X}^{k}=g\left(\left(\boldsymbol{\beta}^{k}\right)^{\mathrm{T}} \boldsymbol{X}^{k-1}\right). (13) 与监督学习的深度极限学习机在分类层采用传统ELM作为分类器不同,DJRELM将经过多层JRELM-AE提取后的抽象特征送入一个引入Jerk正则化约束的半监督ELM中. 该半监督ELM的目标函数定义为:
\begin{aligned} \min \limits_{\boldsymbol{\beta}}& L_{\mathrm{ELM}-\mathrm{AE}}=\frac{1}{2}\|\boldsymbol{\beta}\|^{2}+\frac{C}{2} \boldsymbol{W}\|\boldsymbol{Y}-\boldsymbol{H} \boldsymbol{\beta}\|^{2}+ \\ &\frac{\lambda}{2} \operatorname{Tr}\left(\boldsymbol{\beta}^{\mathrm{T}} \boldsymbol{H}^{\mathrm{T}} \boldsymbol{J} \boldsymbol{H} \boldsymbol{\beta}\right), \end{aligned} (14) 其中,W是一个对角矩阵,其中前l个对角元素为Wii=1/Nti(Nti为类别ti包含的训练样本个数),其余等于0. Lh为分类层半监督ELM隐层节点数. 输出权重矩阵β可以通过如下公式获得:
\boldsymbol{\beta}= \begin{cases}\left(I_{L_{h}}+C \boldsymbol{H}^{\mathrm{T}} \boldsymbol{W} \boldsymbol{H}+\lambda \boldsymbol{H}^{\mathrm{T}} \boldsymbol{J} \boldsymbol{H}\right)^{-1} \boldsymbol{H}^{\mathrm{T}} C \boldsymbol{W} \boldsymbol{Y} & \left(n \geqslant L_{h}\right), \\ \boldsymbol{H}^{\mathrm{T}}\left(\boldsymbol{I}_{n}+C \boldsymbol{W} \boldsymbol{H} \boldsymbol{H}^{\mathrm{T}}+\lambda \boldsymbol{J} \boldsymbol{H} \boldsymbol{H}^{\mathrm{T}}\right)^{-1} C \boldsymbol{W} \boldsymbol{Y} & \left(n<L_{h}\right).\end{cases} (15) 电能质量复合扰动分类属于典型的多标签学习问题,现有方法将多分类模型扩展到多标签学习应用多采用固定阈值进行标签和非标签的二分区. 本文提出的DJRELM在分类输出层增加了基于RBF核极限学习机的阈值学习模块,使阈值不再固定,而是随着样本的不同而产生变化.
给定样本xj在多分类模型的预测输出为f(xi)={f1(xi), …, fq(xi)}T(i=1, …, l),根据样本xi在第j个标签的真实值tij将输出值划分为Yi和 {{\boldsymbol{\bar{Y}}}_{i}} 这2个相关和非相关标签区,具体表示为:
\begin{cases}f_{j}\left(\boldsymbol{x}_{i}\right) \subseteq \boldsymbol{Y}_{i} & \left(t_{i j}=1\right), \\ f_{j}\left(\boldsymbol{x}_{i}\right) \subseteq \overline{\boldsymbol{Y}}_{i} & \left(t_{i j}=-1\right).\end{cases} (16) 样本xi的阈值A定义:
A\left(\boldsymbol{x}_{i}\right)=\frac{\max \left(\overline{\boldsymbol{Y}}_{i}\right)+\min \left(\boldsymbol{Y}_{i}\right)}{2}, (17) 阈值预测模块通过x1, A(x1), …, xl, A(xl)构建径向基核极限学习机的训练集,最终阈值学习函数A'表达式为:
A^{\prime}(\boldsymbol{x})=\boldsymbol{K}_{X}\left(\frac{1}{\zeta}+\boldsymbol{\varOmega}_{\mathrm{KELM}}\right)^{-1} \boldsymbol{Y}, (18) 其中,ζ为正则化系数,KX=K(X, X1)…K(X, Xl)和K(u, v)=exp(-γ‖u-v‖2)是径向基核函数,ΩKELM=K(Xi, Xj)(i, j=1, …, l).
DJRELM模型结构如图 2所示,DJRELM算法的具体流程如下:
输入:已标注的样本集{Xl, Yl}={xi, yi}(i=1, …, l),未标注样本集Xu={xj}(j=l+1, …, n-l);隐层层数K、每层节点个数、平衡参数和核参数等.
输出:DJRELM的映射函数f, {{\mathbb{R}}^{d}}\to {{\mathbb{R}}^{q}} .
阶段一:提取原始数据集的特征;
步骤一:通过{Xl, Xu}计算Jerk算子J;
步骤二:根据式(12)计算每层输出权重矩阵βi(i=1, …, K);
步骤三:根据式(13)计算输入数据的特征Xk;
阶段二:半监督输出;
步骤一:根据式(15)计算输出权重矩阵β;
步骤二:分类层半监督ELM输出样本xi的预测值 f\left(\boldsymbol{x}_{i}\right)=\boldsymbol{X}_{i}^{K} \boldsymbol{\beta}=\left\{f_{1}\left(\boldsymbol{x}_{i}\right), \cdots, f_{q}\left(\boldsymbol{x}_{i}\right)\right\}^{\mathrm{T}} ;
阶段三:阈值学习,多标签分类;
步骤一:根据式(17)计算并构建训练集 \left\{ {{\boldsymbol{X}}_{l}}, {{A}_{l}} \right\}=\left\{ {{\boldsymbol{x}}_{i}}, {{A}_{i}} \right\}_{i=1}^{l} ;
步骤二:计算RBF核矩阵;
步骤三:给定一个未知样本x, 预测标签集f(x)={yj∣fj(x)≥A(x) (j=1, …, m)},其中A(x)根据式(18)计算.
3. 结果与讨论
3.1 数据集及实验
本文数据集由软件仿真数据和硬件采集的标准功率源数据共同构成. 一方面,软件仿真数据由Matlab依据IEEE1159-2019以及文献[12]生成,共生成47种复合扰动;另一方面,以STM32为核心的硬件模块对标准功率源Fluke 6105A进行采样,受功率源自身限制只能采样到47种仿真复合扰动类型中的15种,具体采样平台如图 3所示.
实验扰动数据集共包含9 400个样本,其中每个类型复合扰动各200个. 实验数据集划分参照文献[18]将所有样本进行四等分,轮流将其中的1份用于测试,其余3份用于训练. 训练集进一步划分为:已标注集,验证集和未标注集,3个集合各有2 350个扰动样本. 为防过拟合,进行四折交叉校验.
本文首次从半监督多标签学习的角度对复合扰动分类进行研究,为了验证算法的有效性,在不同噪声(20~50 dB)环境中,采用3种监督学习算法(多层极限学习机(ML-ELM)[15]、随机映射多标签极限学习机(RDPEML)[17]、深度卷积神经网络(DCNN))和2种半监督学习算法(半监督极限学习机(SS-ELM)[18]和半监督深度极限学习机(SDELM)[19])与DJRELM进行对比. 5种算法中ML-ELM、SS-ELM、SDELM和DCNN属于多分类学习模型,为了公平比较,基于ELM的多分类模型均采用和DJRELM相同的阈值学习模块将模型扩展到多标签学习,DCNN则采用二分类交叉熵作为损失函数实现多标签学习,其中,浅层网络算法SS-ELM与RDPEML的输入为VMD算法提取的复合扰动特征.
所有基于ELM的模型隐层节点数寻优范围为100至1 000,每次递增10个节点. 经过交叉校验后RDPEML和SSELM隐层节点分别取900和1 000. DJRELM、ML-ELM和SDELM均采用3层隐层结构,隐层节点数分别为{700, 780, 1 000}、{740, 560, 970}和{940, 730, 1 000}. 所有模型正则化系数C和平衡参数取值范围均为{10-10, 10-9, …, 109, 1010},经过寻优后3种方法正则化系数分别为{10-1, 101, 10-1,104}、{103, 102, 105,102}和{10-1, 101, 10-1,104}. DJREML、SDELM和SS-ELM中的平衡参数分别为{10-2, 10-2, 10-7,10-1}、{10-2}和{10-4}. 阈值预测模块正则化系数和核参数取值范围均为{10-5, 10-4, …, 104, 105},DJRELM、ML-ELM、SDELM、RDPEML和SS-ELM寻优后2个参数分别为{10-3, 100}、{101, 101}、{100, 101}、{10-1, 100}和{101, 102}. 计算流形正则化时运行的KNN算法的K取值范围为{10, 20, …, 90, 100},寻优后DJRELM和SDELM的K均取60,SS-ELM中K取80. DCNN由3个1维卷积层、3最大池化层、3个批量归一化层、1个全连接层和1个分类层组成. 每个卷积层后面依序连接一个池化层和归一化层. 3个卷积层的卷积核大小分别为1×8、1×8和1×16;每层卷积层的卷积核数目分别为512、480和256;3个池化层的核大小均为2×2. 全连接层包含38 400个神经元,最后的分类层输出节点数则与标签数目(7个)一致.
复合扰动属于多标签分类问题,因此采用多标签学习领域常用的5个指标:汉明损失、排位损失、一类错误、覆盖率、平均精度进行评价. 给定输入空间 X={{\mathbb{R}}^{d}} 、有限集合L={1, 2, …, q}以及多标签测试数据集Z={(zi, Zi)∣1≤i≤n},对于多标签分类器f(·)存在一个实值函数 h: X \times L \longrightarrow \mathbb{R} 当 l_{1} \in Y_{i} l_{2} \notin Y_{i} 时,存在h(xi, l1)>h(xi, l2).
(1) 汉明损失(Hamming loss, LH)
\operatorname{Hloss}_{Z}(h)=\frac{1}{n} \sum\limits_{i=1}^{n} \frac{1}{q}\left|h\left(\boldsymbol{z}_{i}\right) \varDelta Z_{i}\right|, (19) 其中, Δ表示2个集合的对称差.
(2) 排位损失(Ranking loss, LR)
\begin{gathered} L_{\mathrm{R}}(h)=\frac{1}{n} \sum\limits_{i=1}^{n} \frac{1}{\left|Z_{i}\right|\left|\bar{Z}_{i}\right|} \mid\left\{\left(l_{1}, l_{2}\right) \mid h\left(\boldsymbol{z}_{i}, l_{1}\right) \leqslant\right. \\ \left.h\left(\boldsymbol{z}_{i}, l_{2}\right),\left(l_{1}, l_{2}\right) \in {Z}_{i} \times \bar{Z}_{i} \mid\right\}, \end{gathered} (20) 其中,Zi为集合Z中Zi的补集,h(·, ·)是与多标签分类器f(·)对应的实值函数.
(3) 一类错误(One error, LO)
L_{\rm{O}}(h)=\frac{1}{n} \sum\limits_{i=1}^{n}\left\{\left[\underset{l \in L}{\operatorname{argmax}} h\left(\boldsymbol{z}_{i}, l\right)\right] \notin Z_{i}\right\}, (21) 其中, 对于任意表达式{·},当括号内的待判别内容{·}为真时,{·}值为1,否则值为0.
(4) 覆盖率(Coverage, LC)
L_{\mathrm{C}}(h)=\frac{1}{n} \sum\limits_{i=1}^{n} \max \limits_{l \in Z_{i}} N_{h}\left(z_{i}, l\right)-1, (22) 其中Nh(zi, l)输出所有标签函数h(zi, l)中标签l对应函数的排序.
(5) 平均精度(Average precision, PA)
\begin{aligned} P_{\mathrm{A}}&(f)=\frac{1}{n} \sum\limits_{i=1}^{n} \frac{1}{\left|Z_{i}\right|} \sum\limits_{l \in Z_{i}} \\ &\frac{\left|\left\{l^{\prime} \mid N_{h}\left(\boldsymbol{z}_{i}, l^{\prime}\right) \leqslant N_{h}\left(z_{i}, l\right), l^{\prime} \in Z_{i}\right\}\right|}{N_{h}\left(z_{i}, l\right)}. \end{aligned} (23) 汉明损失用于评估测试样本总体误分率,剩余4个指标是用于评估预测样本不同标签的排名质量. 一类错误评估排名最高的标签不在样本真实标签集中的次数;覆盖率评估平均需要下移多少个序号才能在排序结果列表中覆盖样本包含的所有标签;排位损失评估样本中顺序错误标签的平均占比;平均精度评估排名在特定标签l∈Z以上的标签实际存在于Z中的平均分数. 5个指标中,平均精度越高越好,其余4个指标越小越好. 以上几种算法均在Intel I7-6800K 3.5 GHz CPU、32 GB内存、Win7系统下Matlab2020a的环境中运行.
3.2 算法对比结果与分析
3.2.1 与相关算法的性能对比
表 1给出不同噪声条件下,几种算法在复合扰动数据集上的多标签性能结果,本文提出的DJRELM在各项指标上均优于其他几种方法. 对比前期研究工作(RDPEML)[17]以及另外2个深层网络方法(ML-ELM和DCNN),本文算法的精度更高. 这一结果表明:流形正则化用于挖掘未标注数据信息从而提升分类性能. 引入图拉普拉斯正则化的SDELM和DJRELM较人工选取特征(结合半监督学习的SS-ELM识别方案)的性能明显提升,这一结果得益于流形正则化和深度网络结构. 与SDELM只是将图拉普拉斯正则化引入在分类层不同,DJRELM在每个ELM-AE中加入Jerk正则化的结构使其表现出更好的性能. 算法的运行时间上,因为每个隐层输出权重都需要带入Jerk算子,本文的方法训练时间较浅层ELM和普通多层ELM的更长,但相比DCNN的训练时间大大缩短. 这得益于多层ELM中每层参数无需进行反向传播调整.
表 1 不同噪声条件下算法的评价结果Table 1. The results of evaluating algorithms under different SNR values算法 SNR/dB 评价指标 运行时间/s 汉明损失 排位损失 一类错误 覆盖率 平均精度 训练时间 测试时间 DJRELM 20 0.105 8 0.045 6 0.045 3 1.856 8 0.939 0 54.93 0.44 RDPEML 0.216 2 0.156 4 0.166 4 2.700 9 0.824 4 0.49 0.17 SSELM 0.231 0 0.170 1 0.209 8 2.765 1 0.799 6 9.97 0.18 ML-ELM 0.122 4 0.051 9 0.062 1 1.906 0 0.932 4 10.42 0.38 SDELM 0.114 2 0.050 7 0.057 4 1.895 7 0.935 4 41.18 0.37 DCNN 0.125 6 0.052 9 0.072 8 1.892 3 0.926 8 715.07 33.66 DJRELM 30 0.100 5 0.042 4 0.046 4 1.836 2 0.946 0 60.72 0.42 RDPEML 0.195 9 0.130 3 0.120 4 2.555 7 0.853 4 0.56 0.19 SSELM 0.203 2 0.136 9 0.145 1 2.584 7 0.838 4 8.89 0.19 ML-ELM 0.113 7 0.043 1 0.051 9 1.843 8 0.941 0 10.50 0.42 SDELM 0.112 8 0.042 8 0.050 5 1.842 4 0.942 2 21.41 0.34 DCNN 0.128 9 0.051 4 0.056 2 1.919 1 0.934 7 717.40 32.82 DJRELM 40 0.098 6 0.047 3 0.052 8 1.866 1 0.943 2 34.80 0.36 RDPEML 0.180 5 0.116 2 0.111 5 2.429 4 0.869 1 0.55 0.18 SSELM 0.194 8 0.125 6 0.131 5 2.540 9 0.846 9 19.12 0.18 ML-ELM 0.120 1 0.047 8 0.051 9 1.882 1 0.938 9 9.78 0.38 SDELM 0.114 2 0.047 6 0.052 2 1.872 8 0.940 6 47.60 0.45 DCNN 0.120 2 0.049 5 0.049 8 1.894 0 0.936 5 720.48 32.30 DJRELM 50 0.100 2 0.045 1 0.037 9 1.876 6 0.946 3 52.73 0.38 RDPEML 0.188 0 0.123 4 0.110 6 2.523 4 0.864 8 0.50 0.17 SSELM 0.195 6 0.131 0 0.131 1 2.562 6 0.848 1 13.02 0.19 ML-ELM 0.112 2 0.048 1 0.052 3 1.930 8 0.938 0 10.74 0.51 SDELM 0.112 6 0.046 6 0.043 6 1.929 4 0.941 1 34.80 0.42 DCNN 0.120 0 0.051 9 0.053 9 1.937 0 0.935 5 747.22 34.33 3.2.2 不同流形正则化深度ELM的性能对比
为了进一步验证本文提出的Jerk流形正则化在多层ELM半监督学习中的有效性,实验采用基于另外两种常用的流形正则化(图拉普拉斯Laplacian、海森Hessian)的深度极限学习机在复合扰动数据集上进行性能比较. 表 2给出了不同噪声环境下不同流形正则化深度ELM的评价结果,基于Jerk流形正则化的深度结构分类效果均优于另外2种方法. 结果表明:Jerk流形正则化比Laplacian和Hessian流形在多层无监督学习中能更好地表征数据流形的内在局部几何信息,使半监督深度极限学习机具有更好的泛化性能.
表 2 不同流形正则化深度ELM评价结果Table 2. The results of evaluating deep ELM algorithms with different manifold regularizationsSNR/dB 评价指标 流形正则化 Laplacian Hessian Jerk 20 汉明损失 0.113 7 0.110 4 0.105 8 排位损失 0.049 3 0.047 1 0.045 6 一类错误 0.055 9 0.052 7 0.045 3 覆盖率 1.891 5 1.875 7 1.856 8 平均精度 0.934 8 0.934 7 0.939 0 30 汉明损失 0.108 9 0.105 2 0.100 5 排位损失 0.042 8 0.042 6 0.042 4 一类错误 0.049 1 0.047 7 0.046 4 覆盖率 1.841 3 1.838 1 1.836 2 平均精度 0.942 8 0.943 9 0.946 0 40 汉明损失 0.108 7 0.102 4 0.098 6 排位损失 0.047 5 0.047 4 0.047 3 一类错误 0.049 2 0.047 0 0.046 4 覆盖率 1.868 7 1.862 6 1.859 6 平均精度 0.941 8 0.942 5 0.943 2 50 汉明损失 0.110 3 0.107 9 0.100 2 排位损失 0.046 0 0.045 5 0.045 1 一类错误 0.040 1 0.039 2 0.037 9 覆盖率 1.898 7 1.894 9 1.876 6 平均精度 0.942 4 0.942 9 0.946 3 3.2.3 初始已标注样本和未标注样本比例对识别的影响
图 4给出初始条件为不同数量已标注样本情况下,DJRELM、ML-ELM和多层拉普拉斯正则化ELM-AE构成的ML-GELM[20]在复合扰动数据集上的性能对比. 初始已标注样本数目为470,每次递增940个,该过程保持校验集数目与已标注集一致,最终添加至3 525个已标注样本. 由图 4可见,3种方法的性能均随着已标注样本所占比例的增加而逐步提升,其中DJRELM在5项指标中优于ML-ELM和ML-GELM,而当样本比例增长到一定值后,3种方法性能提升都有所放缓.
在固定已标注样本数目的情况下,以未标注样本总数10%的数量向训练集添加未标注样本时,3种算法在复合扰动数据集上的性能变化曲线如图 5所示,随着未标注样本数量的增加,DJRELM的5个性能指标越来越优,即使在初始阶段训练集在没有任何标注样本的情况下,DJRELM也是3种方法中性能最佳的. 主要原因是流形正则化在纯监督学习的情况下也有效.
4. 结论
针对电网实测复合扰动样本多数未标注类别而无法加入监督学习模型训练的情况,提出一种新型的基于Jerk流形正则化的DJRELM-ML半监督扰动识别模型. 算法在仿真和硬件采集数据实验结果表明,Jerk正则化有效利用未标注样本的内含信息,提升了复合扰动半监督学习精度,较图拉普拉斯和海森正则化具有更好的局部几何结构保持能力和外推能力. DJRELM较单层ELM和传统半监督深层ELM的识别精度更高,能更有效地分类识别复合扰动. 尽管如此本文提出的DJRELM模型还有一些不足之处,如模型超参数寻优较耗时,下一步研究将努力减少需要调整的超参数数目. 另外,Jerk算子计算时间较长使得训练难以实时,在线训练的研究也是未来的一个工作方向.
-
表 1 不同噪声条件下算法的评价结果
Table 1 The results of evaluating algorithms under different SNR values
算法 SNR/dB 评价指标 运行时间/s 汉明损失 排位损失 一类错误 覆盖率 平均精度 训练时间 测试时间 DJRELM 20 0.105 8 0.045 6 0.045 3 1.856 8 0.939 0 54.93 0.44 RDPEML 0.216 2 0.156 4 0.166 4 2.700 9 0.824 4 0.49 0.17 SSELM 0.231 0 0.170 1 0.209 8 2.765 1 0.799 6 9.97 0.18 ML-ELM 0.122 4 0.051 9 0.062 1 1.906 0 0.932 4 10.42 0.38 SDELM 0.114 2 0.050 7 0.057 4 1.895 7 0.935 4 41.18 0.37 DCNN 0.125 6 0.052 9 0.072 8 1.892 3 0.926 8 715.07 33.66 DJRELM 30 0.100 5 0.042 4 0.046 4 1.836 2 0.946 0 60.72 0.42 RDPEML 0.195 9 0.130 3 0.120 4 2.555 7 0.853 4 0.56 0.19 SSELM 0.203 2 0.136 9 0.145 1 2.584 7 0.838 4 8.89 0.19 ML-ELM 0.113 7 0.043 1 0.051 9 1.843 8 0.941 0 10.50 0.42 SDELM 0.112 8 0.042 8 0.050 5 1.842 4 0.942 2 21.41 0.34 DCNN 0.128 9 0.051 4 0.056 2 1.919 1 0.934 7 717.40 32.82 DJRELM 40 0.098 6 0.047 3 0.052 8 1.866 1 0.943 2 34.80 0.36 RDPEML 0.180 5 0.116 2 0.111 5 2.429 4 0.869 1 0.55 0.18 SSELM 0.194 8 0.125 6 0.131 5 2.540 9 0.846 9 19.12 0.18 ML-ELM 0.120 1 0.047 8 0.051 9 1.882 1 0.938 9 9.78 0.38 SDELM 0.114 2 0.047 6 0.052 2 1.872 8 0.940 6 47.60 0.45 DCNN 0.120 2 0.049 5 0.049 8 1.894 0 0.936 5 720.48 32.30 DJRELM 50 0.100 2 0.045 1 0.037 9 1.876 6 0.946 3 52.73 0.38 RDPEML 0.188 0 0.123 4 0.110 6 2.523 4 0.864 8 0.50 0.17 SSELM 0.195 6 0.131 0 0.131 1 2.562 6 0.848 1 13.02 0.19 ML-ELM 0.112 2 0.048 1 0.052 3 1.930 8 0.938 0 10.74 0.51 SDELM 0.112 6 0.046 6 0.043 6 1.929 4 0.941 1 34.80 0.42 DCNN 0.120 0 0.051 9 0.053 9 1.937 0 0.935 5 747.22 34.33 表 2 不同流形正则化深度ELM评价结果
Table 2 The results of evaluating deep ELM algorithms with different manifold regularizations
SNR/dB 评价指标 流形正则化 Laplacian Hessian Jerk 20 汉明损失 0.113 7 0.110 4 0.105 8 排位损失 0.049 3 0.047 1 0.045 6 一类错误 0.055 9 0.052 7 0.045 3 覆盖率 1.891 5 1.875 7 1.856 8 平均精度 0.934 8 0.934 7 0.939 0 30 汉明损失 0.108 9 0.105 2 0.100 5 排位损失 0.042 8 0.042 6 0.042 4 一类错误 0.049 1 0.047 7 0.046 4 覆盖率 1.841 3 1.838 1 1.836 2 平均精度 0.942 8 0.943 9 0.946 0 40 汉明损失 0.108 7 0.102 4 0.098 6 排位损失 0.047 5 0.047 4 0.047 3 一类错误 0.049 2 0.047 0 0.046 4 覆盖率 1.868 7 1.862 6 1.859 6 平均精度 0.941 8 0.942 5 0.943 2 50 汉明损失 0.110 3 0.107 9 0.100 2 排位损失 0.046 0 0.045 5 0.045 1 一类错误 0.040 1 0.039 2 0.037 9 覆盖率 1.898 7 1.894 9 1.876 6 平均精度 0.942 4 0.942 9 0.946 3 -
[1] 杨新法, 苏剑, 吕志鹏, 等. 微电网技术综述[J]. 中国电机工程学报, 2014, 34(1): 57-70. https://www.cnki.com.cn/Article/CJFDTOTAL-ZGDC201401008.htm YANG X F, SU J, LLÜ Z P, et al. Overview on micro-grid technology[J]. Proceedings of the Chinese Society for Electrical Engineering, 2014, 34(1): 57-70. https://www.cnki.com.cn/Article/CJFDTOTAL-ZGDC201401008.htm
[2] 黄建明, 瞿合祚, 李晓明. 基于短时傅里叶变换及其谱峭度的电能质量混合扰动分类[J]. 电网技术, 2016, 40(10): 3184-3191. https://www.cnki.com.cn/Article/CJFDTOTAL-DWJS201610036.htm HUANG J M, QU H Z, LI X M. Classification for hybrid power quality disturbance based on STFT and its spectral kurtosis[J]. Power System Technology, 2016, 40(10): 3184-3191. https://www.cnki.com.cn/Article/CJFDTOTAL-DWJS201610036.htm
[3] 王仁明, 汪宏阳, 张赟宁, 等. 基于分段改进S变换和随机森林的复合电能质量扰动识别方法[J]. 电力系统保护与控制, 2020, 48(7): 19-28. https://www.cnki.com.cn/Article/CJFDTOTAL-JDQW202007003.htm WANG R M, WANG H Y, ZHANG Y N, et al. Composite power quality disturbance recognition based on segmented modified S-transform and random forest[J]. Power System Protection and Control, 2020, 48(7): 19-28. https://www.cnki.com.cn/Article/CJFDTOTAL-JDQW202007003.htm
[4] 郑戍华, 张宁宁, 王向周. 基于提升小波和Hilbert变换的暂态电能质量检测[J]. 北京理工大学学报, 2019, 39(2): 162-168. https://www.cnki.com.cn/Article/CJFDTOTAL-BJLG201902009.htm ZHENG S H, ZHANG N N, WANG X Z. A lifting wavelet and Hilbert transform fusion method for transient power quality detection[J]. Transactions of Beijing Institute of Technology, 2019, 39(2): 162-168. https://www.cnki.com.cn/Article/CJFDTOTAL-BJLG201902009.htm
[5] 徐艳春, 高永康, 李振兴, 等. 基于VMD初始化S变换的混合动力系统电能质量扰动检测与分类[J]. 中国电机工程学报, 2019, 39(16): 4786-4798. https://www.cnki.com.cn/Article/CJFDTOTAL-ZGDC201916014.htm XU Y C, GAO Y K, LI Z X, et al. Power quality disturbance detection and classification of hybrid power system based on VMD initialization S-transform[J]. Proceedings of the Chinese Society for Electrical Engineering, 2019, 39(16): 4786-4798. https://www.cnki.com.cn/Article/CJFDTOTAL-ZGDC201916014.htm
[6] 唐小煜, 黄进波, 冯洁文, 等. 基于U-net和YOLOv4的绝缘子图像分割与缺陷检测[J]. 华南师范大学学报(自然科学版), 2020, 52(6): 15-21. doi: 10.6054/j.jscnun.2020088 TANG X Y, HUANG J B, FENG J W, et al. Image segmentation and defect detection of insulators based on U-net and YOLOv4[J]. Journal of South China Normal University(Natural Science Edition), 2020, 52(6): 15-21. doi: 10.6054/j.jscnun.2020088
[7] 王维博, 张斌, 曾文入, 等. 基于特征融合一维卷积神经网络的电能质量扰动分类[J]. 电力系统保护与控制, 2020, 48(6): 53-60. https://www.cnki.com.cn/Article/CJFDTOTAL-JDQW202006007.htm WANG W B, ZHANG B, ZENG W R, et al. Power quality disturbance classification of one-dimensional convolutional neural networks based on feature fusion[J]. Power System Protection and Control, 2020, 48(6): 53-60. https://www.cnki.com.cn/Article/CJFDTOTAL-JDQW202006007.htm
[8] 陈伟, 何家欢, 裴喜平. 基于相空间重构和卷积神经网络的电能质量扰动分类[J]. 电力系统保护与控制, 2018, 46(14): 87-93. doi: 10.7667/PSPC171080 CHEN W, HE J H, PEI X P. Classification for power quality disturbance based on phase-space reconstruction and convolution neural network[J]. Power System Protection and Control, 2018, 46(14): 87-93. doi: 10.7667/PSPC171080
[9] 曹梦舟, 张艳. 基于卷积-长短期记忆网络的电能质量扰动分类[J]. 电力系统保护与控制, 2020, 48(2): 86-92. https://www.cnki.com.cn/Article/CJFDTOTAL-JDQW202002011.htm CAO M Z, ZHANG Y. Classification for power quality disturbances based on CNN-LSTM network[J]. Power System Protection and Control, 2020, 48(2): 86-92. https://www.cnki.com.cn/Article/CJFDTOTAL-JDQW202002011.htm
[10] 许立武, 李开成, 罗奕, 等. 基于不完全S变换与梯度提升树的电能质量复合扰动识别[J]. 电力系统保护与控制, 2019, 47(6): 24-31. https://www.cnki.com.cn/Article/CJFDTOTAL-JDQW201906004.htm XU L W, LI K C, LUO Y, et al. Classification of complex power quality disturbances based on incomplete S-transform and gradient boosting decision tree[J]. Power System Protection and Control, 2019, 47(6): 24-31. https://www.cnki.com.cn/Article/CJFDTOTAL-JDQW201906004.htm
[11] 陈晓静, 李开成, 肖剑, 等. 一种实时电能质量扰动分类方法[J]. 电工技术学报, 2017, 32(3): 45-55. https://www.cnki.com.cn/Article/CJFDTOTAL-DGJS201703006.htm CHEN X J, LI K C, XIAO J, et al. A method of real-time power quality disturbance classification[J]. Transactionsof China Electrotechnical Society, 2017, 32(3): 45-55. https://www.cnki.com.cn/Article/CJFDTOTAL-DGJS201703006.htm
[12] 张巧革, 刘志刚, 朱玲, 等. 基于多标签Rank-WSVM的复合电能质量扰动分类[J]. 中国电机工程学报, 2013, 33(28): 114-120. https://www.cnki.com.cn/Article/CJFDTOTAL-ZGDC201328016.htm ZHANG Q G, LIU Z G, ZHU L, et al. Recognition of multiple power quality disturbances using multi-label wavelet support vector machine[J]. Proceedings of the Chinese Society for Electrical Engineering, 2013, 33(28): 114-120. https://www.cnki.com.cn/Article/CJFDTOTAL-ZGDC201328016.htm
[13] 周雒维, 管春, 卢伟国. 多标签分类法在电能质量复合扰动分类中的应用[J]. 中国电机工程学报, 2011, 31(4): 45-50. https://www.cnki.com.cn/Article/CJFDTOTAL-ZGDC201104009.htm ZHOU L W, GUAN C, LU W G. Application of multi-label classification method to categorization of multiple power quality disturbances[J]. Proceedings of the Chinese Society for Electrical Engineering, 2011, 31(4): 45-50. https://www.cnki.com.cn/Article/CJFDTOTAL-ZGDC201104009.htm
[14] HUANG G B, ZHU Q Y, SIEW C K. Extreme learning machine: theory and applications[J]. Neuro-computing, 2006, 70: 489-501.
[15] KASUN L L C, ZHOU H, HUANG G B, et al. Representational learning with extreme learning machine for big data[J]. IEEE Intelligent Systems, 2013, 28(6): 31-34.
[16] YADAV R K, ABHISHEK V, et al. Regularization on a rapidly varying manifold[J]. International Journal of Machine Learning and Cybernetics, 2020, 11(3): 1571-1590. doi: 10.1007/s13042-019-01059-5
[17] ZHAO C, LI K C, LI Y Z, et al. Novel method based on variational mode decomposition and a random discriminative projection extreme learning machine for multiple power quality disturbance recognition[J]. IEEE Transactions on Industrial Informatics, 2019, 15(5): 2915-2926. doi: 10.1109/TII.2018.2871253
[18] HUANG G, SONG S J, GUPTA J, et al. Semi-supervised and unsupervised extreme learning machines[J]. IEEE Transactions on Cybernetics, 2014, 44(12): 2405-2417. doi: 10.1109/TCYB.2014.2307349
[19] GU Y, CHEN Y, LIU J, et al. Semi-supervised deep extreme learning machine for WiFi based localization[J]. Neurocomputing, 2015, 166(20): 282-293. http://www.sciencedirect.com/science/article/pii/S092523121500418X
[20] SUN K, ZHANG J, ZHANG C, et al. Generalized extreme learning machine autoencoder and a new deep neural network[J]. Neurocomputing, 2016, 230(22): 374-381. http://www.sciencedirect.com/science/article/pii/S092523121631503X
-
期刊类型引用(3)
1. 郭肖勇,严玮演,李勇进,常淑敏. 面向MCU的轻量化极限学习机和锂电池健康状态估计. 华南师范大学学报(自然科学版). 2024(06): 44-50 . 百度学术
2. 何哲. 基于数据挖掘的电能替代潜力用户自动识别方法. 自动化应用. 2023(23): 200-202 . 百度学术
3. 王海刚. 光伏并网下电能质量自适应控制方法. 自动化应用. 2022(07): 117-119+123 . 百度学术
其他类型引用(3)