Facial Expression Recognition Based on Improved Octave Convolution Algorithm
-
摘要: 针对目前人脸表情识别存在准确率不高、模型复杂和计算量大的问题,文章提出了一种基于八度卷积改进的人脸表情识别模型(OCNN):使用改进的八度卷积进行特征提取,提高对细节特征的提取效果,降低特征图的冗余,在不增加参数的同时减少运算量,以提高特征提取性能;利用DyReLU激活函数来增强模型的学习和表达能力;使用自适应平均池化下采样层代替全连接层,以减少参数;将模型在大规模数据集上进行预训练,并在FER2013、FERPlus、RAF-DB数据集上进行模型性能验证实验。实验结果表明:训练后的模型权重为10.4 MB,在人脸表情识别数据集FER2013、FERPlus和RAF-DB上的准确率分别达到73.53%、89.58%和88.50%;与目前诸模型相比,OCNN模型的准确性高且计算资源消耗低,充分证明了该模型的有效性。Abstract: Aiming at the problems of low accuracy, complex model and large amount of calculation in current facial expression recognition, an improved facial expression recognition method based on octave convolution was proposed in this paper. The improved octave convolution is used for feature extraction, which improves the extraction effect of detailed feature, decline the redundancy in the feature map, and reduce the amount of calculation without increa-sing the parameters, so as to improve the feature extraction performance; DyReLU activation function was used to enhance the learning and expression capabilities of the model. The parameters are reduced using an adaptive mean pooling downsampling layer instead of a fully connected layer; the model is pre-trained on a large dataset, and then the model performance verification experiment is performed on the FER2013, FERPlus and RAF-DB datasets. The experimental results show that the trained model weights is only 10.4 MB, and the accuracy of the model on the expression recognition datasets FER2013, FERPlus and RAF-DB are 73.53%, 89.58% and 88.50% respectively. Compared with many current models, the OCNN model had higher accuracy and lower computing resource consumption, which fully proved the effectiveness of this model.
-
人脸表情是人类传达情感状态最有效、最普遍的信息。近年来,人工智能领域发展迅速,人脸表情识别的应用场景逐渐广泛,例如人机交互、智慧课堂和智能驾驶等领域,人脸表情识别已逐渐成为计算机视觉中的一个研究热点。
目前的人脸表情识别方法通常分为传统方法和深度学习方法两大类,其中传统方法大多采用手工特征或浅层学习,例如基于局部二值模式(Local Binary Patterns,LBP)[1]、主成分分析法[2]、非负矩阵分解法[3]、Gabor小波变换法[4]和方向梯度直方图(Histogram of Oriented Gradient,HOG)[5]等,这些方法在某些特定的情况下能够取得较好的实验结果,但是容易受到其他因素影响,比如光照、角度和姿态因素,而且在真实场景中的鲁棒性不高。
随着深度学习技术的发展和人脸数据集的逐渐充实, 深度学习方法也逐步应用于人脸表情识别研究中,如:MATSUGU等[6]采用卷积神经网络(Convolutional Neural Networks,CNN)解决面部表情中的主观独立性问题和图片中的人脸表情位置、角度问题;SUN等[7]通过区域的CNN(R-CNN)学习人脸表情特征;HUANG[8]提出融合VGG网络和ResNet网络,以提高模型性能,但是存在参数多、计算量大的问题;冯杨等[9]借鉴了VGG16模型,提出了基于小尺度卷积核的人脸表情识别方法,使用多层小尺度卷积块代替大卷积核,减少了参数。为了更加有效地提高模型准确率,学者们在分类器、数据集和损失函数上进行研究,如:GEORGESCU等[10]提出使用SVM代替卷积神经网络的分类器;WANG等[11]针对数据集中存在的标注不确定性问题,提出了SCN+ResNet18模型;LI等[12]提出了基于粗-细标签和蒸馏的自适应人脸表情识别方法;崔子越等[13]通过设置概率阈值对Focal Loss进行改进,从而减少了误标注样本对模型性能产生的影响;XUE等[14]提出了基于Transformer的人脸表情识别方法,使模型注意到更多的表情局部特征,并且在全局视野下关注局部特征与表情类别的关系,从而提升模型性能。这些方法虽然准确率较高,但是存在网络结构复杂、参数多和计算量大等问题,而且没有考虑人脸表情特征图中信息的冗余和激活函数导致的神经元失活问题。
卷积神经网络是一类包含卷积计算且具有深度结果的前馈神经网络,近年来在图像处理中广泛应用并取得许多突破性的研究成果[15-17]。CHEN等[18]认为传统卷积神经网络的特征图中存在冗余,提出了八度卷积(Octave Convolution)算法,在降低冗余的同时提高了模型的特征提取能力,但是该算法的参数多、结构复杂。针对以上问题,本文提出一种基于八度卷积改进的人脸表情识别模型(OCNN):使用改进的八度卷积,有效提取人脸表情中的高频特征、减少特征图中的低频冗余;采用最新的激活函数来增加模型的非线性表达能力;使用自适应平均池化下采样层代替全连接层,从而达到减少参数量、计算量且提高准确率的效果。最后,在FER2013、FERPlus、RAF-DB数据集上进行对比实验,以验证模型效果。
1. 改进的八度卷积算法
1.1 改进的八度卷积模块
卷积神经网络中的核心是卷积操作,该操作对特征图的计算公式如下:
X(l+1)(i,j)=(Xl⊗Wl)(i,j)= k∑x=1k∑y=1(Xl(si+x,sj+y)Wl(x,y))+b, (1) 其中,Wl(x, y)∈Rc×k×k代表k×k的卷积核,X∈Rc×h×w代表输入输出特征图,X(i, j)代表输出特征图中坐标为(i,j)的像素,i, j∈{0, 1, …, Ll+1}, Ll+1=(Ll+2p-f)/s+1,Ll为特征图Xl的宽度或高度,s为每次卷积步长,p为特征图边缘空白填充的宽度。
图像在传输的过程中分为高、低频部分,其中高频部分包含图像的细节信息,而低频部分保存的是图像的整体信息,存在部分冗余信息[19]。八度卷积算法根据上述思想,将卷积层的输出、输入特征图分成高、低频两部分;根据尺度空间表示,使用不同尺度的特征图来表示高、低频,即将式(1)中的Xl分为高频部分XlH和低频部分XlL,其中低频部分使用低分辨率来表示,以减少空间冗余和计算量。八度卷积模块的高频部分由输入的高频部分经过卷积,加上低频部分经过卷积、上采样得到;低频部分由输入的低频部分经过卷积,加上高频部分经过下采样、卷积得到。以上操作能够降低低频部分的冗余,从而减少计算量。八度卷积模块包含高频到高频、低频到低频、低频到高频和高频到低频4个通道,结构相对复杂,参数量为Cout*k*k,是传统卷积的2倍。因为传统卷积输入输出只有一个尺度,所以在替代传统卷积神经网络时需要构建多种八度卷积模块。针对这个问题,本文对八度卷积进行改进,改进后的八度卷积操作的计算公式如下:
X(l+1)(i,j)=(XHl⊗(1−α)WHl)(i,j)⊕ upsample ((XLl⊕αWLl)(i,j)), (2) 其中,XlH=Xl,表示高频部分;XlL表示低频部分,是Xl经过池化核大小为2×2、步长为2的平均池化层下采样得到;α为低频分量占比;upsample()代表上采样;⊗代表卷积操作;⊕代表拼接操作。改进后的八度卷积模块如图 1所示,具体步骤为:输入的特征图经过下采样后再进行卷积操作,从而得到低频输出;直接对输入特征图进行卷积操作,从而得到高频输出;将低频部分进行上采样后与高频部分进行特征融合, 得到最终输出。以上操作使得高频部分和低频部分相互通信且输入、输出的特征图只有1种尺寸,而且改进后的八度卷积的参数量与传统卷积相近,且结构更简单,可以直接替代传统卷积神经网络中的卷积运算。
1.2 八度卷积块
八度卷积块由批标准化和激活函数组合而成。由图 2可知:每个八度卷积块包含2个八度卷积层,每个卷积层中又结合了批归一化层和动态激活层。其中八度卷积层中的卷积核大小为3×3,特征图边缘空白填充参数p为1,步长为1。与仅使用1层大尺度的卷积层相比,使用多层小尺度的卷积层可以保持相同感受野且减少参数量。
通常使用的激活函数为ReLU函数,其表达式为f(x)=max(0, x)。该函数的特点是当神经元输入的加权和为负数时,函数的梯度为0,神经元的输出也为0,从而导致一些神经元失效。针对ReLU函数在负区间神经元失活的问题,目前已有一些解决方法,例如LeakyReLU函数[20]在输入为负值时输出一个接近于0的正数;PReLU函数[21]使用一个带参数的ReLU函数。但是这些方法的实际应用效果并不明显,本文使用根据输入动态调整参数的DyReLU激活函数[22],以期在不增加网络深度和宽度的前提下,有效提高模型表达能力。DyReLU激活函数的结构如图 3所示,其中,x代表输入数据,y=fθ(x)(x)代表最终的激活函数,斜率θ根据输入数据进行自适应调整,从而得到不同斜率的激活函数。DyReLU有3种工作形式(DyReLU-A、DyReLU-B、DyReLU-C),本文选用性能较好、超函数计算参数适中的DyReLU-B,即空间共享而通道不共享形式。
1.3 OCNN模型结构
本文提出的基于改进八度卷积的人脸表情识别模型(OCNN)框架如图 4所示,该模型由4个八度卷积块、4个最大池化层、1个自适应平均池化层和1个全连接层组成,其中:4个八度卷积块的卷积核大小均为3×3,步长和填充均为1,卷积核个数分别为64、128、256、256;最大池化层的池化核大小为2×2、步长为2。网络输入尺寸为90 px×90 px的灰度图,由八度卷积块1输出64张尺寸为90 px×90 px的特征图,再经过池化层进行下采样,得到64张尺寸为45 px×45 px的特征图; 重复3次相同操作后得到256张尺寸为5 px×5 px的特征图,然后经过自适应平均池化层生成256张尺寸为2 px×2 px的特征图,最后展平后接全连接层输出。
在OCNN模型的网络结构中,自适应平均池化层用于降维,以减少模型参数。因为在卷积神经网络中,全连接层的作用是将最后一层卷积得到的特征向量做乘法操作,实现降维后输出到softmax层中,从而得到每个类别对应的得分。因此,全连接包含大量的参数,训练时消耗内存且容易导致过拟合。目前虽然已经有一些解决过拟合的方法,例如在全连接层后面加入一个dropout层,随机失活一部分神经元,但这样的操作会导致训练速度慢,而且存在参数量大的问题。自适应平均池化层是根据指定的输出参数,对输入的特征图进行取均值操作,其输出与输入的每个特征图的像素相关,因此,该池化层拥有全局感受野,且本身不带任何参数,能在不增加参数的同时将特征图进行降维,以减少模型的过拟合。
2. 实验评估
为了验证本文模型的有效性,在3个数据集上进行实验。实验使用基于PyTorch框架的Python语言,实验平台是Ubuntu18.04 LTS系统,CPU是Xeon Gold 5218@2.3 GHz,内存、硬盘大小分别为64 GB、1 TB,显卡为NVIDIA gtx2080ti。模型训练使用的优化器是随机梯度下降法(Stochastic Gradient Descent,SGD),批次大小设置为64, 初始学习率为0.005,每训练10个epoch后衰减为原来的0.9倍,总共迭代200次。
2.1 数据集及预处理
实验选用的3个典型的公开数据集如下:
(1) FER2013数据集[23]:是一个典型的真实世界的人脸表情数据集,由谷歌搜索引擎收集,包括28 709张训练图像,3 589张验证图像和3 589张测试图像,包含了不同光照情况、姿势角度和比例的人脸。这些图像用7个表情标签(中性、快乐、惊讶、悲伤、愤怒、厌恶和恐惧)进行了注释。
(2) FERPlus数据集[24]:是FER2013数据集的扩展,有10个标签注释。本文使用在实验常用的7种基本情绪的图像。
(3) RAF-DB数据库[25]:包含了30 000张由40名受过训练的编码人员用基本或复合表情标注的面部图像。实验中只使用了具有基本表情的图像,其中12 271张图像用于训练,3 068张图像用于测试。
预处理是图像处理中不可或缺的步骤,本算法在预处理过程对数据进行增强处理。在训练阶段,首先将图片灰度化,尺寸调整为100 px×100 px,从中随机裁剪出尺寸为90 px×90 px的图像,随机角度旋转10°,再进行50%概率的水平翻转。在测试阶段,首先将图片灰度化,尺寸调整为100 px×100 px,分别从图片的左上角、右上角、中心、左下角和右下角裁剪出尺寸为90 px×90 px的5张图像,然后通过镜像操作得到另5张图像,将10张图像输入模型得到10个表情类别概率,将对应概率值取平均,从而得到模型对该图片的表情类别判断结果。
2.2 实验结果及分析
2.2.1 消融实验
在改进的八度卷积模块中,低频部分占比越高,模型的计算量越低。本文在RAF-DB数据集上,将设置不同低频分量占比的OCNN模型进行对比实验,其中将低频分量占比为0.00、0.25、0.50、0.75的模型分别记为OCNN-a、OCNN-b、OCNN-c、OCNN-d,参数量和计算量使用torchstat中的stat模块得到。由对比结果(表 1)可以发现:(1)使用本文改进的八度卷积模块代替传统卷积,可以在不增加参数量的同时减少计算量,并提高准确率;(2)当低频分量占比为0.50时,模型的综合性能较优,计算量比传统的卷积将近减少40%,准确率提高了1%。
表 1 不同低频分量占比模型的性能对比Table 1. The performance comparation of models with different low-frequency components模型 参数量/(×106) 乘加次数/(×109) 浮点运算次数/(×109) RAF-DB准确率/% OCNN-a 2.7 2.65 1.33 86.05 OCNN-b 2.7 2.15 1.08 86.99 OCNN-c 2.7 1.65 0.83 87.19 OCNN-d 2.7 1.15 0.58 86.44 在3个人脸表情识别数据集中,将准确率最高的OCNN-c模型与传统八度卷积模型进行对比实验。结果(表 2)显示:OCNN-c模型的参数量更少,准确率更高。
表 2 原始八度卷积模型和OCNN-c模型的对比Table 2. The comparation of original octave and OCNN-c convolution模型 参数量/(×106) 准确率/% FER2013 FERPlus RAF-DB 传统八度卷积模型 2.9 72.56 88.49 86.34 OCNN-c 2.7 72.64 88.62 87.19 在OCNN-c模型中,分别使用激活函数ReLU、DyReLU进行对比实验。将使用全连接层和自适应平均池化层的模型设为a组,未使用的设为b组,分别得到ReLU-a、DyReLU-a、ReLU-b、DyReLU-b子模型。对比结果(表 3)表明:使用自适应平均池化下采样层能够有效减少参数量并提升模型性能;使用DyReLU激活函数的模型的准确率高于使用ReLU函数的模型,并降低了参数量。
表 3 使用不同激活函数的OCNN-c模型的准确率Table 3. Accuracy of OCNN-c model with different activation functions模型 参数量/(×106) 准确率/% FER2013 FERPlus RAF-DB ReLU-a 8.9 72.47 88.46 86.63 DyReLU-a 9.3 72.44 88.49 86.79 ReLU-b 2.3 72.11 88.42 86.34 DyReLU-b 2.7 72.64 88.62 87.19 2.2.2 与经典网络模型的对比实验
大多数人脸表情识别模型是基于经典网络模型进行改进的,如AlexNet[15]、VGG16[16]、ResNet-18[17]和DenseNet-121[26]模型。在深度学习模型中,模型的计算量和参数量是评价模型性能的重要指标。其中,计算量可以从模型的乘加操作总量(Madd)上体现;模型训练后保存的权重参数文件大小(即存储空间,单位MB)可以准确地反映模型参数量大小,决定模型后续应用到实际硬件中的可能性。因此,本文将OCNN模型与上述4个经典网络模型进行对比实验,选择模型的计算量和参数量为评价指标。
由对比结果(表 4)可知:(1)在FERPlus和RAF-DB数据集上,OCNN模型的准确率最高;在FER2013数据集上,OCNN模型的准确率仅略低于VGG16模型。(2)OCNN模型的计算量最少,其中VGG16模型的计算量最大,约为OCNN模型的18倍,ResNet-18、DenseNet-121模型的计算量分别约为OCNN模型的2、3倍。(3)OCNN模型的参数量为2.7 M,权重文件的存储空间为10.4 MB,少于其他模型,其中VGG16模型的权重文件的存储空间约为OCNN模型的52倍,AlexNet、ResNet-18、DenseNet-121模型的权重文件分别约为OCNN模型的22、4、3倍。综上可知,与目前的4个经典网络模型相比,本文提出的OCNN模型的准确率更高、计算量更小且参数量更小,在人脸表情识别方面优于目前的经典模型。
表 4 与主流网络模型的对比Table 4. The comparation of mainstream network models模型 输入特征图的尺寸 参数量/(×106) 准确率/% 乘加次数/(×109) 存储空间/MB FER2013 FERPlus RAF-DB Alexnet[15] 227×227×3 57.0 71.55 87.40 84.62 1.67 228.1 VGG16[16] 224×224×3 134.3 72.72 88.17 86.96 30.95 537.2 ResNet-18[17] 224×224×3 11.2 71.19 87.79 85.92 3.64 44.8 DenseNet-121[26] 224×224×3 7.0 71.66 88.59 84.58 5.74 28.5 OCNN 90×90×1 2.7 72.64 88.62 87.19 1.65 10.4 2.2.3 与当前模型的对比实验
深度学习模型的准确率与数据量有关,数据量越大,训练的模型效果越好。已有研究结果[11-12, 27-29]表明在大规模数据集上预训练能提升模型的准确率。将本文的OCNN模型在AffectNet数据集[30]上进行预训练,保存模型参数后在FER2013、FERPlus、RAF-DB数据集上训练,得到最终的实验结果后与现有模型进行对比。
由实验结果(表 5至表 7)可知:(1)使用大的数据集进行预训练后,OCNN模型在FER2013、FERPlus、RAF-DB数据集上的准确率都有提升,表明在大的数据集上进行预训练能够有效提升模型性能。(2)在FER2013、FERPlus数据集上,OCNN模型的准确率最高。(3)在RAF-DB数据集上,OCNN模型的准确率为88.50%,仅略低于GCN模型(88.92%)。
综上所述,OCNN模型在3个常用数据集的准确率较高,计算量、参数量较少,适用于人脸表情识别领域。
3. 结论
为解决人脸表情识别模型准确率低、参数多和计算量大的问题,本文提出了一种基于八度卷积改进的人脸表情识别模型(OCNN)。该模型改进了卷积模块,在原始八度卷积的基础上增加了低频分量,降低人脸特征图中的冗余;使用DyReLU函数来增加模型的表达能力,采用自适应平均池化下采样层代替全连接层。本文通过消融实验探究OCNN模型低频分量占比和激活函数选用,降低了模型大小和计算成本,在RAF-DB、FER2013、FERPlus数据集上都取得了较好的结果。与经典网络模型及当前模型的对比结果表明:OCNN模型不仅保证了准确率,还有效减少了参数量和计算量,比其他模型具有更高的鲁棒性和适用性,拥有应用在多种人脸表情识别场景的能力。
虽然OCNN模型在资源占用上有优势,但依然是在大算力平台上进行的,因此,后续工作中将进一步优化模型,以完成人脸表情识别算法的硬件实现,为基于移动设备的表情识别系统奠定基础。
-
表 1 不同低频分量占比模型的性能对比
Table 1 The performance comparation of models with different low-frequency components
模型 参数量/(×106) 乘加次数/(×109) 浮点运算次数/(×109) RAF-DB准确率/% OCNN-a 2.7 2.65 1.33 86.05 OCNN-b 2.7 2.15 1.08 86.99 OCNN-c 2.7 1.65 0.83 87.19 OCNN-d 2.7 1.15 0.58 86.44 表 2 原始八度卷积模型和OCNN-c模型的对比
Table 2 The comparation of original octave and OCNN-c convolution
模型 参数量/(×106) 准确率/% FER2013 FERPlus RAF-DB 传统八度卷积模型 2.9 72.56 88.49 86.34 OCNN-c 2.7 72.64 88.62 87.19 表 3 使用不同激活函数的OCNN-c模型的准确率
Table 3 Accuracy of OCNN-c model with different activation functions
模型 参数量/(×106) 准确率/% FER2013 FERPlus RAF-DB ReLU-a 8.9 72.47 88.46 86.63 DyReLU-a 9.3 72.44 88.49 86.79 ReLU-b 2.3 72.11 88.42 86.34 DyReLU-b 2.7 72.64 88.62 87.19 表 4 与主流网络模型的对比
Table 4 The comparation of mainstream network models
模型 输入特征图的尺寸 参数量/(×106) 准确率/% 乘加次数/(×109) 存储空间/MB FER2013 FERPlus RAF-DB Alexnet[15] 227×227×3 57.0 71.55 87.40 84.62 1.67 228.1 VGG16[16] 224×224×3 134.3 72.72 88.17 86.96 30.95 537.2 ResNet-18[17] 224×224×3 11.2 71.19 87.79 85.92 3.64 44.8 DenseNet-121[26] 224×224×3 7.0 71.66 88.59 84.58 5.74 28.5 OCNN 90×90×1 2.7 72.64 88.62 87.19 1.65 10.4 表 5 不同模型在FER2013数据集上的实验结果
Table 5 Experimental results of different models on the FER2013 dataset
表 6 不同模型在FERPlus数据集上的实验结果
Table 6 Experimental results of different models on the FERPlus dataset
-
[1] SHAN C F, GONG S G, MCOWAN P W. Facial expression recognition based on Local Binary Patterns: a comprehensive study[J]. Image and Vision Computing, 2009, 27(6): 803-816. doi: 10.1016/j.imavis.2008.08.005
[2] MAHMUD F, ISLAM B, HOSSAIN A, et al. Facial region segmentation based emotion recognition using K-Nearest Neighbors[C]//Proceedings of 2018 International Confe-rence on Innovation in Engineering and Technology. Dhaka: IEEE, 2018: 1-5.
[3] ZHI R C, FLIERL M, RUAN Q Q, et al. Graph-preserving sparse nonnegative matrix factorization with application to facial expression recognition[J]. IEEE Transaction on Systems, Man, and Cybernetics: Part B, 2011, 41(1): 38-52. doi: 10.1109/TSMCB.2010.2044788
[4] ZHANG Z Y, MU X M, GAO L. Recognizing facial expressions based on Gabor filter selection[C]//Procee dings of International Congress on Image and Signal Processing. Shanghai: IEEE, 2011: 1544-1548.
[5] 胡敏, 滕文娣, 王晓华, 等. 融合局部纹理和形状特征的人脸表情识别[J]. 电子与信息学报, 2018, 40(6): 1338-1344. https://www.cnki.com.cn/Article/CJFDTOTAL-DZYX201806010.htm HU M, TENG W D, WANG X H, et al. Facial expression recognition based on local texture and shape features[J]. Journal of Electronics & Information Technology, 2018, 40(6): 1338-1344. https://www.cnki.com.cn/Article/CJFDTOTAL-DZYX201806010.htm
[6] MATSUGU M, MORI K, MITARI Y, et al. Subject independent facial expression recognition with robust face detection using a convolutional neural network[J]. Neural Networks, 2003, 16(5/6): 555-559.
[7] SUN B, LI L, ZHOU G, et al. Facial expression recognition in the wild based on multimodal texture features[J]. Journal of Electronic Imaging, 2016, 25(6): 061407/1-8.
[8] HUANG C. Combining convolutional neural networks for emotion recognition[C]//Proceedings of 2017 IEEE MIT Undergraduate Research Technology Conference. Cambridge: IEEE, 2017: 1-4.
[9] 冯杨, 刘蓉, 鲁甜. 基于小尺度核卷积的人脸表情识别[J]. 计算机工程, 2021, 47(4): 262-267. doi: 10.19678/j.issn.1000-3428.0056775 FENG Y, LIU R, LU T. Facial expression recognition based on small-scale kernel convolution[J]. Computer Engineering, 2021, 47(4): 262-267. doi: 10.19678/j.issn.1000-3428.0056775
[10] GEORGESCU M I, IONESCU R T, POPESCU M. Local learning with deep and handcrafted features for facial expression recognition[J]. IEEE Access, 2019, 7: 64827-64836. doi: 10.1109/ACCESS.2019.2917266
[11] WANG K, PENG X, YANG J, et al. Suppressing uncertainties for large-scale facial expression recognition[C]//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 6897-6906.
[12] LI H, WANG N, DING X, et al. Adaptively learning facial expression representation via C-F labels and distillation[J]. IEEE Transactions on Image Processing, 2021, 30: 2016-2028. doi: 10.1109/TIP.2021.3049955
[13] 崔子越, 皮家甜, 陈勇, 等. 结合改进VGGNet和Focal Loss的人脸表情识别[J]. 计算机工程与应用, 2021, 57(19): 171-178. doi: 10.3778/j.issn.1002-8331.2007-0492 CUI Z Y, PI J T, CHEN Y, et al. Facial expression recognition combined with improved VGGNet and Focal Loss[J]. Computer Engineering and Applications, 2021, 57(19): 171-178. doi: 10.3778/j.issn.1002-8331.2007-0492
[14] XUE F, WANG Q, GUO G. TransFER: learning relation-aware facial expression representations with transformers[C]//Proceedings of 2021 IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 3581-3590.
[15] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90. doi: 10.1145/3065386
[16] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[J/OL]. arXiv, (2015-04-10)[2021-12-16]. https://arxiv.org/abs/1409.1556.
[17] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 770-778.
[18] CHEN Y, FAN H, XU B, et al. Drop an Octave: reducing spatial redundancy in convolutional neural networks with Octave Convolution[C]//Proceedings of 2019 IEEE/CVF International Conference on Computer Vision. Seoul: IEEE, 2020: 3434-3443.
[19] MALLAT S G. A wavelet tour of signal processing[M]. New York: Academic Press, 1999.
[20] NAIR V, HINTON G E. Rectified linear units improve restricted Boltzmann machines Vinod Nair[C]//Procee-dings of the 27th International Conference on Machine Learning (ICML-10). Haifa: Omnipress, 2010: 807-814.
[21] HE K, ZHANG X, REN S, et al. Delving deep into rectifiers: surpassing human-level performance on ImageNet classification[C]//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago: IEEE, 2015: 1026-1034.
[22] CHEN Y, DAI X, LIU M, et al. Dynamic ReLU[C]//Proceedings of Computer Vision-ECCV 2020: 16th European Conference. Berlin: Springer, 2020: 351-367.
[23] GOODFELLOW I J, ERHAN D, CARRIER P L, et al. Challenges in representation learning: a report on three machine learning contests[C]//Neural Information Processing: 20th International Conference, ICONIP 2013. Berlin: Springer, 2013: 117-124.
[24] BARSOUM E, ZHANG C, FERRER C C, et al. Training deep networks for facial expression recognition with crowd-sourced label distribution[C]//Proceedings of the 18th ACM International Conference on Multimodal Interaction. New York: ACM, 2016: 279-283.
[25] LI S, DENG W, DU J P. Reliable crowdsourcing and deep locality-preserving learning for expression recognition in the wild[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 2852-2861.
[26] HUANG G, LIU Z, LAURENS V, et al. Densely connected convolutional networks[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 2261-2269.
[27] SHAO J, QIAN Y. Three convolutional neural network models for facial expression recognition in the wild[J]. Neurocomputing, 2019, 355: 82-92. doi: 10.1016/j.neucom.2019.05.005
[28] JIANG P, WAN B, WANG Q, et al. Fast and efficient facial expression recognition using a Gabor convolutional network[J]. IEEE Signal Processing Letters, 2020, 27: 1954-1958. doi: 10.1109/LSP.2020.3031504
[29] WANG K, PENG X, YANG J, et al. Region attention networks for pose and occlusion robust facial expression re-cognition[J]. IEEE Transactions on Image Processing, 2020, 29: 4057-4069. doi: 10.1109/TIP.2019.2956143
[30] MOLLAHOSSEINI A, HASANI B, MAHOOR M H. AffectNet: a database for facial expression, valence, and arousal computing in the wild[J]. IEEE Transactions on Affective Computing, 2017, 10(1): 18-31.
[31] SANG D V, LE T, HA P T. Discriminative deep feature learning for facial emotion recognition[C]//Proceedings of 2018 1st International Conference on Multimedia Analy-sis and Pattern Recognition. Ho Chi Minh City: IEEE, 2018: 1-6.
[32] MINAEE S, ABDOLRASHIDI A. Deep-emotion: facial expression recognition using attentional convolutional network[J]. Sensors, 2021, 21(9): 3046/1-16.
[33] ZHOU L, FAN X, TJAHJADI T, et al. Discriminative attention-augmented feature learning for facial expression recognition in the wild[J]. Neural Computing and Applications, 2022, 34(2): 925-936. doi: 10.1007/s00521-021-06045-z
[34] LI Y, ZENG J, SHAN S, et al. Occlusion aware facial expression recognition using CNN with attention mechanism[J]. IEEE Transactions on Image Processing, 2018, 28(5): 2439-2450.
[35] GAN Y, CHEN J, YANG Z, et al. Multiple attention network for facial expression recognition[J]. IEEE Access, 2020, 8: 7383-7393. doi: 10.1109/ACCESS.2020.2963913
[36] MA H, CELIK T, LI H C. Lightweight attention convolutional neural network through network slimming for robust facial expression recognition[J]. Signal Image and Video Processing, 2021, 15: 1507-1515. doi: 10.1007/s11760-021-01883-9