Attention Routing-Based Capsule Networks for Emotion Recognition on Multi-Channel EEG
-
摘要:
近年来,深度神经网络应用于脑电情感识别并取得了比传统算法更好的性能,但是卷积神经网络存在对于物体空间关系识别和物体旋转后的特征识别能力较弱、池化操作会丢失大量有价值的信息以及无法描述脑电信号不同通道间的内在联系等缺点。为了克服上述缺点,文章提出了基于注意力路由胶囊网络的多通道脑电情感识别模型(AR-CapsNet),将注意力路由和胶囊激活引入脑电信号情感识别模型中。与传统的胶囊网络脑电情感模型相比,AR-CapsNet模型在保持空间信息的同时,快速地进行前向传递。最后,在数据集DEAP上,将AR-CapsNet模型与机器学习模型、其他深度学习模型(动态图卷积神经网络、四维卷积递归神经网络和传统胶囊网络等)进行了情感识别准确率实验;与多层级特征引导的胶囊网络进行参数量和训练时间对比实验。实验结果表明:(1)与其他模型相比,AR-CapsNet模型有更高的识别精度,在效价、唤醒和主导上的平均识别准确率分别为99.46%、98.45% 和99.54%;(2)与目前性能较好的胶囊网络脑电情感识别模型(多层级特征引导的胶囊网络)相比,AR-CapsNet模型使用了更少的总参数量,降低了脑电信号情感识别的复杂度。
Abstract:In recent years, deep neural networks have been applied to EEG emotion recognition and have demonstrated superior performance compared to traditional algorithms. However, convolutional neural networks exhibit weaknesses in recognizing spatial relationships between objects, identifying features after object rotation, losing va-luable information through pooling operations, and describing the inherent connections among different EEG signal channels. To address these shortcomings, a multi-channel EEG emotion recognition model based on Attention Routing Capsule Network (AR-CapsNet) is proposesd, which introduces attention routing and capsule activation into the EEG emotion recognition model. Compared to traditional capsule network EEG emotion models, the AR-CapsNet model maintains spatial information while performing forward propagation quickly. Finally, experiments on the DEAP dataset compare the AR-CapsNet model with machine learning model and other deep learning-based models (dynamic graph convolutional neural network, 4D convolutional recurrent neural network and traditional capsule networks, etc.), in experiments evaluating emotion recognition accuracy. A comparison was also conducted with multi-channel EEG-based emotion recognition via a multi-level features guided capsule network in terms of parame-ter count and training time. Experimental results indicate that: (1)The AR-CapsNet model achieves higher recog-nition accuracy compared to other models, with average recognition accuracies of 99.46%, 98.45%, 99.54% for valence, arousal and dominance, respectively. (2)In comparison to the currently high-performing capsule network model for EEG-based emotion recognition, namely, the multi-level feature-guided capsule network, a lower total parameter count is employed by the AR-CapsNet model, thereby reducing the complexity of EEG signal emotion recognition.
-
Keywords:
- EEG /
- emotion recognition /
- capsule network /
- attention routing
-
情感识别的主要方式有2种:一种是通过人的面部表情、语音声调和身体姿态等非生理信号进行识别[1],但这些非生理信号容易受外界环境和主观意愿的影响,从而导致情感识别结果不准确。另一种是基于脑电图、心电图、肌电图和眼电图等生理信号进行识别[2]。这些生理信号是人体自发产生的,不易受主观所控制,更能客观地反映人类真实的情感状态。在各种生理信号中,基于脑电信号进行情感识别具有更高的可行性、准确性及适用性等优势。
深度神经网络可以自动学习鲁棒和抽象的特征表示,实现比传统机器算法更高的性能,近年来发展迅速。在各种深度学习模型中,适用于脑电情感识别的模型有:深度信念网络(DBN)[3],卷积神经网络(CNNs)[4]、循环神经网络(RNN)[5]、长短期记忆网络(LSTM)[5]、图卷积神经网络(GCNN)[6]和胶囊网络(CapsNet)等[7]。近年来,研究发现大脑皮层存在一些与情感有密切关系的特定区域,不同通道之间的内在关系是识别情感状态的关键线索。情感状态和大脑连接模式之间存在很强的相关性,因为它们与不同功能区之间存在着特定联系,不同情感状态的变化会引起大脑功能区域的不同活动[8]。而卷积神经网络会忽视不同通道间的内在联系,无法考虑底层目标特征之间及高层特征与底层特征之间的空间关系,并且卷积层对变换进行编码的能力有限。胶囊网络[9]在处理脑电信号的时空特征方面表现出色。该神经网络采用向量表示实体,并通过路由机制替代神经网络的池化操作,从而显著展现了在特征之间的空间关系方面的潜力[10],为提高系统整体精度提供了有力支持。胶囊网络采用胶囊替代传统神经元,将输出数据转化为一组向量。通过引入动态路由算法,网络中的下层胶囊能够预测上层胶囊的激活状态。在路由过程中,建立了不同特征之间的位置关系,提高了对目标位置和角度变化的鲁棒性。考虑到物体间的空间层次结构,胶囊网络保留了时间和空间特征,有效处理脑电信号的时空特征,克服了卷积神经网络的不足。
胶囊网络动态路由规则是胶囊网络取得更好识别效果的主要原因。但传统胶囊网络的动态路由是以全连接的方式构建的,对每个输入胶囊和输出胶囊都分配了变换权重矩阵,胶囊之间无法分享神经元的权重,这使得胶囊网络的动态路由算法需要大量的计算和内存,而且多个全连接胶囊堆叠在一起会导致性能不佳[11]。所以,即使胶囊网络具备更好的拟合特征的能力,但其计算开销巨大,不太适用于大数据集。学者们研究了胶囊网络的变体及其应用,特别是在路由算法改进方面。如:LIU等[12]提出了一种多级特征情感引导胶囊网络(MLF-CapsNet),提高了识别任务的准确率;SALVETTI等[13]在初级胶囊层前增加使用注意力机制的网络层, 提升了模型在特定数据集上的分类精度;CHOI等[14]把注意力路由算法应用在手写字体模型中,减少了模型的参数量;DELIEGE等[15]使用一个特殊的胶囊层(Hit-or-Miss层)和向心损失函数, 在分类任务中进行浅层架构,从而提高了分类性能和计算速度;WANG和LIU[16]对文献[9]给出的胶囊网络的路由协议进行了改进,改善了网络性能。胶囊网络的动态路由是基于矩阵乘法的,其参数量很大。RAJASEGARAN等[17]在动态路由中引入了3D卷积操作,在同一层中的所有胶囊之间共享卷积权重,减少了参数量,但这一操作使得卷积操作难以区分不同的胶囊;REN等[18]引入了胶囊之间的参数共享机制,也减少了参数量,但存在与文献[17]类似的缺陷。
为了改进传统脑电信号情感识别胶囊网络中的动态路由算法,本文提出了基于注意力路由胶囊网络的多通道脑电情感识别模型(AR-CapsNet)。该模型在脑电情感胶囊中引入了注意力路由和胶囊激活[14],代替了胶囊网络中的动态路由[9]和挤压函数。注意力路由仅比较在同一空间位置的胶囊之间的相似性并且可直接学习胶囊之间的权重,实现胶囊之间的参数共享,因而不需要如动态路由的多次迭代。为了验证AR-CapsNet模型在情感分类中的性能,本文使用DEAP数据集中的32名受试者的数据,在效价、唤醒和主导3个维度上进行了实验,分别考察了准确率和参数量。
1. AR-CapsNet
本文提出的AR-CapsNet模型(图 1)具有4个模块:卷积层(ConvRelu layer)、初级胶囊层(PrimaryCaps layer)、卷积胶囊层(ConvCaps layer)和完全卷积胶囊层(FullyconvsCaps layer)。将第l 个胶囊层表示为uw, h, d, nl,将具有相同胶囊通道索引的胶囊称为胶囊通道u(: , : , : , n)l。其中,w、h、d和n分别表示空间宽度轴、空间高度轴、胶囊维度轴和胶囊通道轴。
1.1 卷积层
卷积层(ConvRelu Layer)由64个步长为1的卷积核和Relu激活函数组成,卷积核大小为3×3。用2个卷积层和批量归一化组成的卷积块对输入数据进行处理, 从输入数据中提取局部特征\tilde{\boldsymbol{Z}},将其作为初级胶囊层的输入。
1.2 初级胶囊层
初级胶囊层(PrimaryCaps Layer)是具有N个D维输出通道的卷积胶囊层。将主胶囊层表示为第0胶囊层,每个主胶囊具有D个卷积单元。首先,对输入胶囊\tilde{\boldsymbol{Z}}用N×D个步长为2的卷积核N次独立地对胶囊层执行3×3的卷积,每个卷积层的输出是一个胶囊通道。初级胶囊层的计算公式如下:
\boldsymbol{s}_{(:, :, :, n)}^0=\operatorname{ReLU}\left(\operatorname{Conv}_{3 \times 3}(\tilde{\boldsymbol{Z}})\right) 。 (1) 然后,将胶囊激活应用于每个胶囊通道s(: , : , : , n)。胶囊激活是一个胶囊级激活函数,对胶囊执行仿射变换,然后应用tanh激活函数对胶囊的每个元素进行归一化来稳定胶囊长度:
\boldsymbol{u}_{(:, :, :, n)}=\tanh \left(\operatorname{Conv}_{1 \times 1}\left(\boldsymbol{s}_{(:, :, :, n)}\right)\right) 。 (2) 同一胶囊通道上的胶囊共享仿射变换中使用的参数。
1.3 卷积胶囊层
本文在卷积胶囊层引入了注意力路由机制[14],卷积胶囊层将初级胶囊层的输出进行卷积变换后送到注意力路由中进行计算。注意力路由不是计算转换后的胶囊和输出胶囊的一致性,而是对路由过程进行参数化。
我们首先对每个胶囊通道进行卷积变换,即执行在同一胶囊通道内共享参数的局部连接仿射变换。具体而言,卷积变换是通过使用Dl个3×3大小的卷积核对第l-1个卷积层中同个胶囊通道内的输出u(: , : , : , m)l-1进行卷积操作。卷积胶囊层的计算公式如下:
\tilde{\boldsymbol{s}}_{(:, :, :, m)}^l=\operatorname{Conv}_{3 \times 3}\left(\boldsymbol{u}_{(:, :, :, m)}^{l-1}\right) 。 (3) 卷积变换后的每个输出送到注意力路由中,注意力路由的输出是处于相同空间位置的卷积变换后的胶囊的线性组合,计算公式如下:
\boldsymbol{s}_{(w, h, :, n)}^l=\sum\limits_{m=1, \cdots, N^{l-1}} \boldsymbol{c}_{(w, h, m)}^l \cdot \tilde{\boldsymbol{s}}_{(w, h, :, m)}^l, (4) 其中,\boldsymbol{s}_{(w, h, :, n)}^l, \tilde{\boldsymbol{s}}_{(w, h, :, m)}^l \in \mathbb{R}^{D^l},注意力路由计算权重\boldsymbol{c}_{(w, h, m)}^l \in \mathbb{R}^{D^l},Dl为第l个卷积胶囊层的胶囊维度。
在注意力路由中,第l层和第l+1层之间一致性系数的对数概率\boldsymbol{b}_{(w, h, m)}^l是胶囊串联\left[\tilde{\boldsymbol{u}}_{(w, h, :, 1)}^l, \tilde{\boldsymbol{u}}_{(w, h, :, 2)}^l, \cdots, \tilde{\boldsymbol{u}}_{\left(w, h, :, N^{l-1}\right)}^l\right]和卷积核的参数向量\boldsymbol{e}_n^l \in \mathbb{R}^{D^l \times N^{l-1}}之间的标量积,其中enl为执行路由的近似参考向量。权重\boldsymbol{c}_{(w, h, m)}^l是沿胶囊通道轴的对数概率\boldsymbol{b}_{(w, h, m)}^l的softmax输出, 注意力路由可以根据具有相同空间位置的卷积变换胶囊\left\{\widetilde{\boldsymbol{u}}_{(w, h, :, m)}^l\right\}_m来调整每个空间位置(w, h)的权重\boldsymbol{c}_{(w, h, m)}^l。注意力路由计算过程完成后,在每个单独的胶囊通道s(: , : , : , n)l上再次执行胶囊激活操作:
\boldsymbol{u}_{(:, :, :, n)}^l=\tanh \left(\operatorname{Conv}_{1 \times 1}\left(\boldsymbol{s}_{(:, :, :, n)}^l\right)\right) 。 (5) 一组卷积变换、注意力路由和胶囊激活执行Nl次, 每组输出都是一个胶囊通道u(: , : , : , n)l。
1.4 完全卷积胶囊层
完全卷积胶囊层(FullyconvCaps Layer)是模型的输出层。本层的卷积变换通过使用与输入具有相同空间大小的卷积核和有效填充,将所有空间位置的胶囊特征组合在一起。
完全卷积胶囊层的总损失函数由边缘损失和重建损失组成[9]。使用归一化长度来预测数据集对应类别的概率,‖ukL‖表示完全卷积胶囊层的输出胶囊长度。
(1) 边缘损失。本文对‖ukL‖进行了长度归一化,并用其来预测数据集相应类别的概率,从而得到‖ukL‖nor。对每个情感胶囊使用了边缘损失,表示类别k的胶囊的边缘损失Lk如下:
\begin{aligned} L_k= & T_k \max \left(0, m^{+}-\left\|\boldsymbol{u}_k^L\right\|_{\text {nor }}\right)^2+ \\ & \lambda\left(1-T_k\right) \max \left(0, \left\|\boldsymbol{u}_k^L\right\|_{\text {nor }}-m^{-}\right)^2, \end{aligned} (6) 其中:Tk表示类别k是否存在,如果存在类别k,则Tk=1,否则Tk=0;若m+=0.9,则表示惩罚假阳性,即预测类别k存在但真实不存在;若m-=0.1,则表示惩罚假阴性,即预测类别k不存在但真实存在;λ为调整缺失情感类别的损失权重。
(2) 重建损失。输出胶囊{unL}n=1, …, N被馈送到重构解码器,解码器由3个全连接层组成。输入和解码器输出之间的L2损失的平均值称为重建损失,其计算公式如下:
L_{\text {recon }}=\text { MSELoss }\left(\text {original }_{\text {tensor}}, \text { reconstructed}_{\text {tensor }}\right) \text { 。 } (7) 综上,总损失的计算公式如下:
\text {Total loss} =\sum\limits_k L_k+\operatorname{lam}_{\text {recon }} * L_{\text {recon }}, (8) 其中,lamrecon是控制Lrecon 损失占比的权重参数。
2. 实验结果
2.1 实验数据集
本研究使用多模态数据集DEAP[19]来评估所提出的模型。DEAP数据集通过使用音乐视频材料作为视觉刺激来触发情感,记录了32个受试者在观看40个时长约为1分钟的音乐视频产生的32通道脑电信号和8通道外周生理信号。脑电通道按照国际10-20系统进行分布,选择32个通道的位置。本文只采用脑电信号进行情感识别,该脑电信号先以512 Hz进行采样,然后下采样到128 Hz, 并通过4.0~45.0 Hz的带通频率滤波和独立分量分析等盲源分离技术去除眼电伪迹。每个脑电信号包含在放松状态下记录的3 s基线信号和在刺激下记录的60 s实验信号。通过对63 s的信号下采样128 Hz,获得了8 064个样本点。DEAP数据集格式如表 1所示。
表 1 DEAP数据集格式Table 1. The format of DEAP dataset类型 维度 参数描述 数据 40×40×8 064 音频/试验×通道×样本点 标签 40×4 音频/试验×标签(效价, 唤醒, 主导, 喜好) 所有被试需要进行40次试验并在每次试验结束后立即填写心理评估表,即从效价、唤醒、主导和喜好4个维度,按照范围从1(最弱)到9(最强烈)进行打分。
本文在实验中采用了DEAP的效价-唤醒-主导(VAD)模型[20]。将阈值设置为5,评分大于5的标签标记为“高”,小于或等于5的则标记为“低”。因此,将3个情感维度的标签类型各分为2类:高效价、低效价;高唤醒、低唤醒;高主导、低主导。识别任务为3个情感维度的二分类问题。在DEAP数据集中,每个受试者有40个实验信号。经过预处理,可以得到每个受试者的32个通道的预处理脑电信号。用含128个采样点的1 s滑动窗口对预处理后的实验信号进行分割,每个实验可以得到60个片段,从而得到每个受试者的2 400个(40实验×60个片段)脑电信号样本。
2.2 数据预处理
从文献[6]的数据预处理方法可知,受试者在刺激前后的基线信号与实验信号的差异能够反映情感脑电信号的相对变化,更准确地反映情感的脑电特性,从而提高情感识别的精确度。因此,本研究采用了文献[6]的数据预处理方法。根据文献[21]的实验结果可知,最适合情感识别的窗口长度为1 s,因此,本文也采用1 s的滑动窗口来切割基线信号X、实验信号Y和预处理后的信号Z,从Z分割得到的每个片段都视为一个独立的样本,并且具有与原始实验信号Y相同的情绪标签。
DEAP数据集中记录的每个脑电信号都包含放松状态下的基线信号和刺激状态下的实验信号。预处理流程(图 2)如下:第一步,把基线信号X分割成N1段长度为L的信号片段,每段记为Xi(i=1, 2, …, N1),然后对所有这些信号片段进行逐元素加法并计算平均值,X表示受试者在没有任何刺激下的基本情感状态。该平均值的计算公式如下:
\overline{\boldsymbol{X}}=\frac{\sum\limits_{i=1}^{N_1} \boldsymbol{X}_i}{N_1} 。 (9) 第二步,对实验信号Y进行了同样的分割, 得到N2段长度为L的信号,每段记为Yj(j=1, 2, …, N2),然后将每段实验信号Yj减去X,得到Zj:
\boldsymbol{Z}_j=\boldsymbol{Y}_j-\overline{\boldsymbol{X}}。 (10) 最后一步是将所有的Zj连接成一个与原始脑电信号Y大小相同的矩阵Z。
2.3 实验基本配置
实验采用的硬件设备是Intel(R) Xeon(R) Gold 5118 CPU和NVIDIA GeForce RTX 2080 Ti GPU,软件环境采用的是Python3.6,同时使用了Tensorflow框架搭建神经网络模型。在本文实验中,Dropout操作保留率设置为0.5。使用十重交叉验证技术评估模型的分类性能,即把数据均分成10份,留1份作为测试集,另外9份作为训练集。重复以上操作10次,直至所有子集都作为测试集进行实验。十重交叉验证中,训练数据和测试数据可以来自同一个受试者。采用RMSprop优化算法对网络模型进行训练,学习率设置为0.001,批量设置为100。
2.4 实验结果与讨论
2.4.1 情绪识别准确率实验
为验证AR-CapsNet模型的分类性能,本研究使用了DEAP数据集,对32名受试者在效价、唤醒和主导3个维度上的平均识别准确率进行了分析。由实验结果(图 3)可知:AR-CapsNet模型在3个维度上都取得了极好的识别效果,在效价、唤醒和主导分类任务上的平均识别准确率分别高于99%、98%和99%。
为了进一步验证所提出的AR-CapsNet模型在情感识别中的有效性,将AR-CapsNet模型与动态图卷积神经网络(DGCNN)[6]、支持向量机(SVM)[22]、四维卷积递归神经网络(4DCRNN)[23]、三维卷积神经网络和双向长短期记忆神经网络相结合的混合神经网络(3DCNN-BLSTM)[24]、多粒度级联森林的深度森林模型(gcForest)[25]、CapsNet[26]、多层级特征引导的胶囊网络(MLF-CapsNet)[12]在数据集DEAP上的识别效果进行比较。为保证对比实验的公平性,所有方法均使用十重交叉验证。其中:DGCNN模型考虑了EEG通道的时变相关性, 从多通道EEG信号中构建动态图,动态学习由邻接矩阵表示的不同脑电通道之间的内部关系;MLF-CapsNet模型在形成初级胶囊时结合了不同层学习的多级特征图,从而增强了特征表示的能力,并且使用瓶颈层减少参数量,加快运算;SVM模型的输入是DE特征,采用支持向量机进行情感识别分类;4DCRNN模型整合了多通道脑电信号的频率、空间和时间信息,将不同通道的差分熵特征转化为4D结构,通过CNN从4D输入的每个时间切片中学习频率和空间信息,利用LSTM从CNN输出中提取时间依赖性;CapsNet模型将多通道脑电信号的频域特征、空间特征和频带特征结合起来,构造了多频带特征矩阵(MFM),并将该特征矩阵输入到胶囊网络进行情感识别;3DCNN-BLSTM模型通过3D-CNN挖掘了脑电时空相关的信息,考虑了脑电信号的时间相关性,还通过BLSTM提取脑电信号的前向、反向时序信息;gcForest模型是一种可以挖掘脑电信号的时空信息深度的树模型,该模型通过考虑跨通道的空间位置关系来构建二维帧序列,然后将二维帧序列输入到深度森林构建的分类模型中。
由结果(表 2)可知:(1)与其他深度学习模型相比,机器学习模型的效果不佳。各深度学习模型在3个维度上的平均识别准确率都高于SVM模型,验证了传统机器提取的特征信息不够丰富,不如AR-CapsNet等模型。(2)与其他深度学习模型相比,AR-CapsNet模型的平均识别准确率更高。具体来说,与DGCNN模型相比,AR-CapsNet模型在效价、唤醒和主导维度上的平均识别准确率分别提高了7%、5%、6%;与4DCRNN模型和3DCNN-BLSTM模型相比,AR-CapsNet模型在效价维度上的平均识别准确率分别提高了大约5%和6%,在唤醒维度上的平均识别准确率分别提高了4%和5%;与gcForest模型相比,AR-CapsNet模型在效价和唤醒上的平均识别准确率也略高。(3)AR-CapsNet模型的平均识别准确率高于其他胶囊网络模型。与传统的CapsNet模型及目前胶囊网络在脑电信号识别最高的MLF-CapsNet模型相比,AR-CapsNet模型在情感识别方面具有更高的准确率:AR-CapsNet模型在效价、唤醒和主导维度上的平均识别准确率分别为99.46%、98.45%、99.54%。综上可知AR-CapsNet模型在DEAP数据集上3个维度的二分类任务表现更优,相较于机器学习模型和其他深度学习模型,AR-CapsNet模型具有更高的平均识别准确率。除此之外,AR-CapsNet模型在3个识别任务上具有最小的标准差,这证明了AR-CapsNet模型应用于不同受试者时具有更高的稳定性。
表 2 8种EEG情绪识别模型在DEAP上的平均识别准确率Table 2. Average recognition accuracy of 8 EEG emotion recognition models on DEAP% 模型 模型输入 平均识别准确率 效价 唤醒 主导 DGCNN raw 92.55±3.53 93.50±3.93 93.50±3.69 SVM DE 88.65±6.18 89.07±5.89 89.13±6.59 4DCRNN 4D feature structure 94.58±2.33 94.38±2.57 — 3DCNN-BLSTM ApEn feature 93.21* 93.56* — gcForest raw 97.68±1.22 97.53±1.52 — CapsNet Multiband feature matrix 66.73* 68.28* 67.25* MLF-CapsNet raw 97.97±1.67 98.31±1.24 98.32±1.20 AR-CapsNet raw 99.46±0.35 98.45±0.49 99.54±4.26e-14 注:表中数据采用平均值±标准差表示;*表示没有标准差结果,—表示未用此维度。 2.4.2 模型参数量及训练时间对比实验
将AR-CapsNet模型与目前性能较好的胶囊网络(MLF-CapsNet)进行总参数量和训练时间的对比,实验结果(表 3)表明:与MLF-CapsNet模型相比,AR-CapsNet模型所需的总参数量和训练时间更少。主要原因为:MLF-CapsNet模型的动态路由需要较多的路由迭代才能达到理想的收敛状态,这会造成较大的计算代价;AR-CapsNet模型通过使用注意力路由和胶囊激活实现了相同位置的胶囊之间的参数共享,大大降低了总参数量和运行时间。
表 3 2种方法在DEAP上的总参数和训练时间对比Table 3. Comparison of parameter amount and training time of two methods on DEAP模型 模型输入 总参数量/个 训练时间/s MLF-CapsNet raw 29 053 952 2 274.17 AR-CapsNet raw 8 267 520 16.14 3. 结论
本文提出了一种基于注意力路由胶囊网络的多通道脑电情感识别模型(AR-CapsNet),旨在利用胶囊网络的特性解决卷积神经网络在脑电情感识别中的局限性。相较于传统胶囊网络在脑电情感模型中的应用,AR-CapsNet模型引入了注意力路由和胶囊激活,显著简化了情感识别任务的复杂度,并提高了情感识别的准确率。最后,将AR-CapsNet模型与机器学习模型(SVM)、其他深度学习模型(DGCNN、4DCRNN、3DCNN-BLSTM、gcForest、CapsNet、MLF-CapsNet)进行对比。实验结果表明相较于其他深度学习模型和机器学习模型,AR-CapsNet模型在脑电信号情感识别的3个维度上的平均识别准确率最高:(1)AR-CapsNet模型在效价、唤醒和主导分类任务上的平均识别准确率分别为99.46%、98.45% 和99.54%,比其他模型高。(2)与目前性能较好的胶囊网络(MLF-CapsNet)相比,AR-CapsNet模型在保持高准确率的同时,所需的总参数量和训练时间更少。
-
表 1 DEAP数据集格式
Table 1 The format of DEAP dataset
类型 维度 参数描述 数据 40×40×8 064 音频/试验×通道×样本点 标签 40×4 音频/试验×标签(效价, 唤醒, 主导, 喜好) 表 2 8种EEG情绪识别模型在DEAP上的平均识别准确率
Table 2 Average recognition accuracy of 8 EEG emotion recognition models on DEAP
% 模型 模型输入 平均识别准确率 效价 唤醒 主导 DGCNN raw 92.55±3.53 93.50±3.93 93.50±3.69 SVM DE 88.65±6.18 89.07±5.89 89.13±6.59 4DCRNN 4D feature structure 94.58±2.33 94.38±2.57 — 3DCNN-BLSTM ApEn feature 93.21* 93.56* — gcForest raw 97.68±1.22 97.53±1.52 — CapsNet Multiband feature matrix 66.73* 68.28* 67.25* MLF-CapsNet raw 97.97±1.67 98.31±1.24 98.32±1.20 AR-CapsNet raw 99.46±0.35 98.45±0.49 99.54±4.26e-14 注:表中数据采用平均值±标准差表示;*表示没有标准差结果,—表示未用此维度。 表 3 2种方法在DEAP上的总参数和训练时间对比
Table 3 Comparison of parameter amount and training time of two methods on DEAP
模型 模型输入 总参数量/个 训练时间/s MLF-CapsNet raw 29 053 952 2 274.17 AR-CapsNet raw 8 267 520 16.14 -
[1] KESSOUS L, CASTELLANO G, CARIDAKIS G. Multimodal emotion recognition in speech-based interaction using facial expression, body gesture and acoustic analysis[J]. Journal on Multimodal User Interfaces, 2010, 3(1): 33-48.
[2] 权学良, 曾志刚, 蒋建华, 等. 基于生理信号的情感计算研究综述[J]. 自动化学报, 2021, 47(8): 1769-1784. QUAN X L, ZENG Z G, JIANG J H, et al. Physiological signals based affective computing: a systematic review[J]. Acta Automatica Sinica, 2021, 47(8): 1769-1784.
[3] ZHENG W L, ZHU J Y, PENG Y, et al. EEG-based emotion classification using deep belief networks[C]//2014 IEEE International Conference on Multimedia and Expo. Chengdu: IEEE, 2014: 1-6.
[4] KWON Y H, SHIN S B, KIM S D. Electroencephalography based fusion two-dimensional (2D)-convolution neural networks (CNN) model for emotion recognition system[J]. Sensors, 2018, 18(5): 1383/1-13. doi: 10.3390/s18051383
[5] SUN B, WEI Q L, LI L D, et al. LSTM for dynamic emotion and group emotion recognition in the wild[C]//Proceedings of the 18th ACM International Conference on Multimodal Interaction. New York: ACM, 2016: 451-457.
[6] SONG T F, ZHENG W M, SONG P, et al. EEG emotion recognition using dynamical graph convolutional neural networks[J]. IEEE Transactions on Affective Computing, 2018, 11(3): 532-541.
[7] CHAO H, DONG L, LIU Y, et al. Emotion recognition from multiband EEG signals using CapsNet[J]. Sensors, 2019, 19(9): 2212/1-16.
[8] ZHANG D L, YAO L N, ZHANG X, et al. EEG-based intention recognition from spatio-temporal representations via cascade and parallel convolutional recurrent neural networks[J/OL]. arXiv, (2021-06-10)[2022-10-09]. https://arxiv.org/abs/1708.06578.
[9] SABOUR S, FROSST N, HINTON G E. Dynamic routing between capsules[C]//Advances in Neural Information Processing Systems. Long Beach: Curran Associates Inc, 2017: 3856-3866.
[10] KUMARI N, ANWAR S, BHATTACHARJEE V. Time series-dependent feature of EEG signals for improved visually evoked emotion classification using EmotionCapsNet[J]. Neural Computing and Applications, 2022, 34(16): 13291-13303. doi: 10.1007/s00521-022-06942-x
[11] XI E, BING S, JIN Y. Capsule network performance on complex data[J/OL]. arXiv, (2017-12-10)[2022-10-09]. https://arxiv.org/abs/1712.03480.
[12] LIU Y, DING Y F, LI C, et al. Multi-channel EEG-based emotion recognition via a multi-level features guided capsule network[J]. Computers in Biology and Medicine, 2020, 123: 103927-103937. doi: 10.1016/j.compbiomed.2020.103927
[13] SALVETTI F, MAZZIA V, KHALIQ A, et al. Multi-image super resolution of remotely sensed images using residual attention deep neural networks[J]. Remote Sensing, 2020, 12(14): 2207/1-20. doi: 10.3390/rs12142207
[14] CHOI J, SEO H, IM S, et al. Attention routing between capsules[C]//2019 IEEE/CVF International Conference on Computer Vision Workshop (ICCVW 2019). Seoul: IEEE, 2019: 1981-1989.
[15] DELIEGE A, CIOPPA A, van DROOGENBROECK M. Hitnet: a neural network with capsules embedded in a hit-or-miss layer, extended with hybrid data augmentation and ghost capsules[J/OL]. arXiv, (2018-06-18)[2022-10-09]. https://arxiv.org/abs/1806.06519.
[16] WANG D L, LIU Q. An optimization view on dynamic routing between capsules[C]//International Conference on Learning Representations (ICLR 2018). Vancouver: [s. n. ], 2018: 1-4.
[17] RAJASEGARAN J, JAYASUNDARA V, JAYASEKARA S, et al. Deepcaps: going deeper with capsule networks[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 10717-10725.
[18] REN H, SU J, LU H. Evaluating generalization ability of convolutional neural networks and capsule networks for image classification via top-2 classification[J/OL]. arXiv, (2022-01-15)[2022-10-09]. https://arxiv.org/abs/1901.10112.
[19] KOELSTRA S, MUHL C, SOLEYMANI M, et al. Deap: a database for emotion analysis; using physiological signals[J]. IEEE Transactions on Affective Computing, 2011, 3(1): 18-31.
[20] TRIPATHI S, ACHARYA S, SHARMA R D, et al. Using deep and convolutional neural networks for accurate emotion classification on DEAP data[C]//Proceedings of the AAAI Conference on Artificial Intelligence. San Francisco: AAAI, 2017, 31(2): 4746-4752.
[21] WANG X W, NIE D, LU B L. Emotional state classification from EEG data using machine learning approach[J]. Neurocomputing, 2014, 129: 94-106. doi: 10.1016/j.neucom.2013.06.046
[22] SUYKENS J A K, VANDEWALLE J. Least squares su-pport vector machine classifiers[J]. Neural Processing Le-tters, 1999, 9(3): 293-300. doi: 10.1023/A:1018628609742
[23] SHEN F Y, DAI G J, LIN G, et al. EEG-based emotion recognition using 4D convolutional recurrent neural network[J]. Cognitive Neurodynamics, 2020, 14(6): 815-828. doi: 10.1007/s11571-020-09634-1
[24] 蔡冬丽, 钟清华, 朱永升, 等. 基于混合神经网络的脑电情感识别[J]. 华南师范大学学报(自然科学版), 2021, 53(1): 109-118. doi: 10.6054/j.jscnun.2021017 CAI D L, ZHONG Q L, ZHU Y S, et al. EEG emotion re-cognition based on hybrid neural network[J]. Journal of South China Normal University(Natural Science Edition), 2021, 53(1): 109-118. doi: 10.6054/j.jscnun.2021017
[25] CHENG J, CHEN M Y, LI C, et al. Emotion recognition from multi-channel eeg via deep forest[J]. IEEE Journal of Biomedical and Health Informatics, 2020, 25(2): 453-464.
[26] CHAO H, DONG L, LIU Y L, et al. Emotion recognition from multiband EEG signals using CapsNet[J]. Sensors, 2019, 19(9): 2212/1-16.