A Study of Shared Parameters Cross-modal Retrieval in Common Spaces
-
摘要: 针对跨模态检索中不同模态数据的数据结构和特性存在较大差异的问题,提出了基于公共空间方法的共享参数跨模态检索(SPCMR)方法:首先,利用卷积神经网络提取图像和文本的高级语义特征;然后,接入全连接层将其映射到公共空间并共享2个特征子网的部分隐层权重;最后,连接线性分类器并与标签信息进行判别训练。在公开数据集上采用平均精度(mAP)作为评价指标进行实验。结果表明:SPCMR方法能充分利用跨模态间的语义信息,有效提升图文检索的精度。Abstract: To address the problem of large differences in data structures and characteristics of different modal data in cross-modal retrieval, the Shared Parameters Cross-modal Retrieval (SPCMR) based on the common space approach is proposed: first, the high-level semantic features of images and text are extracted by convolutional neural networks; then, mapping them to the common space through a fully connected layer and sharing part of the hidden layer weights of the 2 feature subnets; finally, discriminative training is performed by a linear classifier with label information. Experiments are conducted on the public dataset using the mean average precision (mAP) score as evaluation metrics, and the results show that the SPCMR can make full use of the semantic information of cross modal samples and effectively improve the accuracy of image and text retrieval.
-
Keywords:
- cross-modal /
- common space /
- shared parameters
-
在信息时代,随着网络技术的不断发展,各种类型的多媒体数据(如文本、图像和音频等)呈指数增长。传统的信息检索方式属于单模态检索[1],其检索数据集和查询数据集的模态必须相同,比如由文本检索文本、由图片检索图片等。这种单模态检索方式已不能满足人们获取多种模态数据的需求,因此,跨模态检索[2]应运而生。跨模态检索面对的困难是如何度量不同模态数据间的内容相似性,即异质鸿沟问题[3]。
当前解决异质鸿沟问题比较主流的方法是特征学习。具体而言,利用具有相同语义的不同模态数据之间存在的相关性,将这些数据从不同的模态映射到一个公共空间,从而生成一个可以直接度量相似度的特征表示形式。传统的特征学习是基于统计分析的方法,有3种思路[4]:无监督学习、监督学习和半监督学习,其中无监督学习最具代表性的方法是典型相关分析(CCA)[5]。CCA通过提取2种不同模态数据之间综合指标的成对相关性来反映原始数据间的相关性,但不能从综合指标的相关性来直接还原出原始数据,即不能找到原始数据与公共空间的映射关系。监督学习的典型方法是聚类相关性分析(Cluster-CCA)[6]。Cluster-CCA能够在公共空间上分离出不同的簇,同时改进了CCA只能用于跨模态数据间一一对应的问题,但Cluster-CCA计算的复杂度是平方阶的,在数据量大的情况下,该算法的执行效率低。半监督学习的典型方法是广义半监督结构子空间学习方法(GSS-SL)[7]。GSS-SL利用未标记数据易于收集和不同模态之间的相关性特性,学习有区别的公共空间,但未解决不同模态之间数据结构不匹配的问题。上述基于统计分析的方法均不能有效获取不同模态间的高级语义信息,而且计算复杂度太高导致无法处理规模量不断增大的数据。
目前,深度神经网络在表示学习[8]中取得重大进展,基于深度学习的跨模态检索研究越来越广泛。如:ANDREW等[9]将深度神经网络和CCA结合提出了深度典型相关分析(DCCA),但容易陷入局部最优解并且发生过拟合现象;WANG等[10]基于深度卷积神经网络和神经网络模型提出了多模态深度神经网络(MDNN),以分别学习图像和文本模态数据的映射函数。上述基于深度学习的方法虽然使用了分类信息,但是未能充分利用语义信息。
本文基于公共空间学习方法,设计了利用深度神经网络保留语义信息的共享参数跨模态检索(Shared Parameters Cross-modal Retrieval,SPCMR)方法,使用卷积神经网络分别提取图像和文本的特征,将学习到的特征子网接入全连接层并映射到公共空间,对不同模态特征进行相关性度量。此外,为了更好地保留公共空间中模态不变性特征,本文在公共空间中共享同一层不同模态特征子网全连接层的权重,并且对模型的不同部分使用不同的损失函数,以提高双向检索的准确率。最后,在公开数据集上进行对比实验以及消融实验,以验证SPCMR方法的检索性能。
1. 模型设计
1.1 函数表示问题
本文将模型应用于图像和文本的跨模态检索中,把图像-文本对的样本实例表示为:
ϕ={xi,ti,yi}ni=1, 其中,xi为第i个实例的图像样本,图像矩阵表示为X=[x1, x2, …, xn];ti为第i个实例的文本样本,文本矩阵T=[t1, t2, …, t3];每一对实例都有一个语义标签向量yi=[y1i,y2i,⋯,yci]∈Rc;c为标签数量,标签yij的含义是如果第i个实例属于第j个分类,其值为1,否则为0;语义标签矩阵 Y=[y1, y2, …, yn];n为图像-文本对的实例数量。
由于图像特征向量和文本特征向量的数据结构和特性完全不同,不能将二者直接进行比较,因此,分别提取图像和文本模态数据的特征后,学习跨模态数据的公共表示:图像特征映射函数f(xi; θx)和文本特征映射函数g(ti; θt),其中θx和θt为网络参数。经过公共空间学习后的图像特征矩阵为XF=f(X; θx),文本特征矩阵为TF=g(T; θt)。
1.2 模型框架
1.2.1 基于VGGNet的图像特征子网
首先采用19层VGGNet卷积神经网络[11]提取图像特征,从第7层的全连接层生成4 096维的特征向量,并将其作为图像的原始高级语义表示;然后,接入6层全连接层以学习公共空间的图像公共表示。特征向量连接全连接层使用的激活函数是线性整流函数(ReLU)[12],全连接层使用的激活函数是双曲正切函数(tanh)[13]。图像特征子网的网络结构见表 1。
表 1 图像特征子网的网络结构Table 1. The structure of image feature subnet网络层名称 当前层维数 激活函数 VGGNet 4 096 ReLU img-net 2 048 tanh img-fc1 1 024 tanh img-fc2 512 tanh img-fc3 512 tanh img-fc4 512 tanh img-fc5 256 tanh img-fc6 c tanh 1.2.2 基于Word2Vec的文本特征子网
首先,采用Word2Vec模型[14]生成特征向量的矩阵;然后,利用sentence CNN卷积神经网络[15]提取文本特征,生成1 024维的特征向量作为文本的原始高级语义表示;最后,接入4层全连接层,以学习公共空间的文本表示。文本特征子网的网络结构见表 2。
表 2 文本特征子网的网络结构Table 2. The structure of text feature subnet网络层名称 当前层维数 激活函数 sentence CNN 1 024 ReLU text-net 2 048 tanh text-fc1 1 024 tanh text-fc2 512 tanh text-fc3 256 tanh text-fc4 c tanh 1.2.3 整体网络结构
由于不同模态之间的数据具有相似语义和潜在相关性,根据上述特性构建公共空间能对不同模态特征进行相关性度量。本文基于公共空间方法提出的共享参数跨模态检索(SPCMR)方法的网络结构如图 1所示。(1)在该模型的最底层包括2个子网:一是图像特征子网,在该子网中,利用与19层VGGNet相同卷积层结构的神经网络,将第7层的FC-4096层生成的特征向量作为图像的原始高级语义表示;二是文本特征子网,在子网中,利用Word2Vec生成文本矩阵,随后利用与sentence CNN相同配置的神经网络生成特征向量,将其作为文本的原始高级语义表示。(2)在特征子网上层,将图像和文本的原始高级语义表示通过全连接层映射到公共空间,进行公共表示学习。全连接层的目的是进行这些高阶特征的特征组合,其本质是由一个特征空间线性变换到另一个特征空间,为了确保2种模态的特征能映射到公共空间,本文强制将2个子网映射到公共空间的全连接层并共享权重,目的在于让有相同标签的图像和文本样本尽可能生成相似的表示。(3)将2个子网在公共空间学习到的公共表示与线性分类器连接,通过标签信息来训练判别特征。在此模型中,成对的标签信息和分类信息都尽可能得到充分利用,确保学习到的表示在语义结构上是有区别的,并且在不同的模态之间是不变的。
1.2.4 损失函数设计
本文的目标是使相同语义下不同模态的数据样本在公共空间的距离尽可能接近,而不同语义下不同模态的数据样本距离尽可能远离。为了学习跨模态数据的判别特征,本文将公共空间的公共表示和样本空间的标签进行最小化判别损失的计算。
采用1个线性分类器将2个子网的公共表示连接起来,并为每个样本生成与标签向量相同维数的预测向量,衡量标签预测损失的公式:
G1=1n(‖ (1) 其中,XY和TY为图像和文本特征经过线性分类器的分类结果,即图像预测矩阵和文本预测矩阵。||·||F为Frobenius范数,其定义是矩阵中元素的平方和再开方,目的是为了衡量矩阵的大小。
为了保证相同语义下不同模态数据样本的预测向量接近,最小化图像文本对预测向量的距离,衡量预测不变性损失的公式:
{G_2} = \frac{1}{n}\lg \left( {1 + {{\rm{e}}^{- \frac{1}{2}{\mathit{\boldsymbol{X}}_Y}{\mathit{\boldsymbol{T}}_Y}}}} \right), (2) 其中,e的指数部分为图像模态特征预测向量与文本模态特征的预测向量的点积,用于衡量图像文本对预测向量的距离。结合式(1)、(2),可得标签空间的损失函数:
L_1=G_1+\alpha G_{2 }。 (3) 为了更好地保留公共空间中模态不变性特征,参考文献[16]分别对跨模态、图像模态和文本模态进行判别损失的计算:
H_1=\frac{1}{n^2} \sum\nolimits_{i, j=1}^n\left(\lg \left(1+\mathrm{e}^{\rho_{i, j}}\right)-S_{i j} ^{\mathit{\boldsymbol{xt}}} \rho_{i, j}\right), (4) H_2=\frac{1}{n^2} \sum\nolimits_{i, j=1}^n\left(\lg \left(1+\mathrm{e}^{\tau_{i, j}}\right)-S_{i j}^{\mathit{\boldsymbol{x x}}} \tau_{i, j}\right), (5) H_3=\frac{1}{n^2} \sum\nolimits_{i, j=1}^n\left(\lg \left(1+\mathrm{e}^{v_{i, j}}\right)-S_{i j}^{\mathit{\boldsymbol{t t}}} v_{i, j}\right), (6) 其中,
\begin{aligned} \rho_{i, j} & =\frac{1}{2} \cos \left(\boldsymbol{x}_{\mathrm{i}}, \boldsymbol{t}_j\right), \\ \tau_{i, j} & =\frac{1}{2} \cos \left(\boldsymbol{x}_{\mathrm{i}}, \boldsymbol{x}_j\right), \\ v _{i, j} & =\frac{1}{2} \cos \left(\boldsymbol{t}_{\mathrm{i}}, \boldsymbol{t}_j\right), \end{aligned} cos(·)为余弦相似函数,用于计算2个输入向量之间的相似度;Sijxt=I{xi, tj}, Sijxx=I{xi, xj}, Sijtt=I{ti, tj},I{·}为指示函数,当2个元素为同类样本标签表示时其值为1,否则为0。结合式(4)~式(6)可得公共空间的损失函数:
L_2=H_1+H_2+H_3 。 (7) 为了消除模态差异性,使得相同语义下不同模态的数据样本在公共空间的距离尽可能接近,最小化图像-文本对之间的距离。本文使用欧氏距离衡量图像-文本对的距离,因此最小化图像-文本对的欧氏距离,使得图像CNN和文本CNN提取的高级语义特征经过公共表示学习后,当欧氏距离更近时,可认为它们具有相同的内容。因此,模态距离损失函数为:
L_3=d\left(\boldsymbol{X}_F, \boldsymbol{T}_F\right)=\sqrt{\left(\boldsymbol{X}_F-\boldsymbol{T}_F\right)^2}, (8) 其中,d(·)为欧几里得度量,其定义是2个点之间的真实距离。
结合式(3)、(7)、(8),可得SPCMR方法使用的总损失函数:
L=L_1+\beta L_2+\chi L_3 \text {,} (9) 其中,α、β和χ为超参数,损失函数L通过随机梯度下降算法优化。
2. 实验结果
2.1 实验数据集
为了评估本文方法的有效性,实验采用Pascal sentence[17]为数据集,该数据集包含1 000张图片,每张图片都有5个描述其内容的英文句子作为注释。从图像中生成句子是当前计算机视觉和跨模态检索的热门研究主题之一,该数据集的最初目的是为该主题创建的。本文对数据集中的图像和文本分别进行了预处理,将提取的特征向量直接作为深度神经网络的输入。
2.2 评估指标
平均精度(mAP)指标[18]联合考虑排名信息和精度,是跨模态检索研究中广泛使用的性能评估标准。因此,本实验考虑了2种模态的相互检索,采用3种mAP指标来评估跨模态检索的性能:图像检索文本的mAP(Img2Txt)、文本检索图像的mAP(Txt2Img)和平均检索的mAP(Avg),其中平均检索的mAP为图像和文本相互检索的mAP均值。
2.3 对比实验
为了评估SPCMR方法的性能,本文将其与8种现有方法进行对比,其中包括4种基于传统统计分析的方法(CCA[5]、MCCA[19]、MvDA[20]和JRL[21])和4种基于深度学习的方法(DCCA[9]、ACMR[22]、BLCMR[23]和DSCMR[16])。由对比结果(表 3)可知:(1)SPCMR方法的平均检索mAP比ACMR方法的提升了8.1%,该结果表明结合深度神经网络可以提高传统方法性能,SPCMR方法优于ACMR方法。(2)SPCMR方法的平均检索mAP比DSCMR方法的提升了1.7%,该结果表明在公共空间增加约束、调整神经网络深度和宽度可以有效提升检索精度。
表 3 不同方法的mAP比较Table 3. The performance comparison in terms of mAP方法 mAP Image2Text Text2Image 平均值 CCA 0.225 0.227 0.226 MCCA 0.664 0.689 0.677 MvDA 0.594 0.626 0.610 JRL 0.527 0.534 0.531 DCCA 0.678 0.677 0.678 ACMR 0.671 0.676 0.673 BLCMR 0.687 0.691 0.689 DSCMR 0.710 0.722 0.716 SPCMR 0.720 0.735 0.728 2.4 消融实验
对于整个网络,使用Pytorch学习库在NVIDIA RTX 2060 Super GPU上进行训练,采用学习率为10-4的ADAM优化器[24],引入L2正则化。
2.4.1 公共空间共享参数测试
为了更好地保留公共空间中模态不变性特征,在公共空间中共享不同模态特征子网的权重,对其进行测试,图像特征子网与文本特征子网的全连接层设置已在1.2节中描述。此外,本文还使2个子网共用公共空间的1个全连接神经网络,层数分别设置为5层和3层,对其进行测试。由实验结果(表 4)可知:(1)当img-fc1/text-fc1和img-fc6/text-fc4的权重共享时,网络表现最好,mAP最高;(2)使2个子网共用1个全连接神经网络时,实验效果比1.2节中公共空间模型的差,表明强制让同一模型处理2种模态完全不同的数据,并不会取得较好的效果。
表 4 公共空间中不同共享参数设置的检索性能Table 4. The retrieval performance of different shared parameters in common space共享权重的全连接层 mAP Image2Text Text2Image 平均值 img-fc1/text-fc1 0.694 0.692 0.693 img-fc6/text-fc4 0.682 0.702 0.692 img-fc5/text-fc3和img-fc6/text-fc4 0.710 0.724 0.717 img-fc1/text-fc1、img-fc5/text-fc3和img-fc6/text-fc4 0.699 0.708 0.704 img-fc1/text-fc1和img-fc6/text-fc4 0.720 0.735 0.728 5 Fully Shared FC 0.705 0.710 0.708 3 Fully Shared FC 0.700 0.710 0.705 2.4.2 损失函数测试
为了综合评估损失函数(标签空间损失函数L1、公共空间损失函数L2和模态距离损失函数L3)对模型效果的影响,分别对6种不同损失函数的组合进行训练测试。由实验结果(表 5)可知:(1)缺少损失函数L1对实验结果影响较大,表明其对学习模态不变性特征的重要性;(2)只有损失函数L1也能取得较好的效果,但加上损失函数L2和L3能进一步提升检索精度,表明公共空间损失和模态距离损失也有其重要性;(3)将G2从损失函数L1中除去,性能不如完整的损失函数L1,表明基于交叉熵的损失函数对模型的收敛也存在重要性。
表 5 不同损失函数的检索性能Table 5. The retrieval performance of different loss functions损失函数 mAP Image2Text Text2Image 平均值 L1 0.692 0.688 0.690 L1+βL2 0.694 0.688 0.692 L1+γL3 0.708 0.720 0.714 βL2+γL3 0.594 0.632 0.613 L1(without G2)+βL2+γL3 0.718 0.728 0.723 L1+βL2+γL3 0.720 0.735 0.728 3. 结论
基于公共空间学习方法,提出利用深度神经网络的共享参数跨模态检索(SPCMR)方法,研究了图像和文本这2个特征子网在公共空间共享全连接层并隐藏层参数的可行性,旨在减少公共空间中不同模态下相同语义的数据差别,扩大不同模态下不同语义的数据差别;并且针对整个网络模型的不同部分提出了不同的损失函数,以提升跨模态检索精度。实验结果表明:SPCMR方法能够提升跨模态检索精度和缩小在公共空间中不同模态下相同语义数据间的距离,其中在公共空间进行参数共享和3个损失函数对SPCMR都有不同程度的贡献。
随着各种模态数据的不断增加,SPCMR方法还存在改进空间,未来将考虑实现模型的可扩展性,从而将其应用于增量跨模态检索中。
-
表 1 图像特征子网的网络结构
Table 1 The structure of image feature subnet
网络层名称 当前层维数 激活函数 VGGNet 4 096 ReLU img-net 2 048 tanh img-fc1 1 024 tanh img-fc2 512 tanh img-fc3 512 tanh img-fc4 512 tanh img-fc5 256 tanh img-fc6 c tanh 表 2 文本特征子网的网络结构
Table 2 The structure of text feature subnet
网络层名称 当前层维数 激活函数 sentence CNN 1 024 ReLU text-net 2 048 tanh text-fc1 1 024 tanh text-fc2 512 tanh text-fc3 256 tanh text-fc4 c tanh 表 3 不同方法的mAP比较
Table 3 The performance comparison in terms of mAP
方法 mAP Image2Text Text2Image 平均值 CCA 0.225 0.227 0.226 MCCA 0.664 0.689 0.677 MvDA 0.594 0.626 0.610 JRL 0.527 0.534 0.531 DCCA 0.678 0.677 0.678 ACMR 0.671 0.676 0.673 BLCMR 0.687 0.691 0.689 DSCMR 0.710 0.722 0.716 SPCMR 0.720 0.735 0.728 表 4 公共空间中不同共享参数设置的检索性能
Table 4 The retrieval performance of different shared parameters in common space
共享权重的全连接层 mAP Image2Text Text2Image 平均值 img-fc1/text-fc1 0.694 0.692 0.693 img-fc6/text-fc4 0.682 0.702 0.692 img-fc5/text-fc3和img-fc6/text-fc4 0.710 0.724 0.717 img-fc1/text-fc1、img-fc5/text-fc3和img-fc6/text-fc4 0.699 0.708 0.704 img-fc1/text-fc1和img-fc6/text-fc4 0.720 0.735 0.728 5 Fully Shared FC 0.705 0.710 0.708 3 Fully Shared FC 0.700 0.710 0.705 表 5 不同损失函数的检索性能
Table 5 The retrieval performance of different loss functions
损失函数 mAP Image2Text Text2Image 平均值 L1 0.692 0.688 0.690 L1+βL2 0.694 0.688 0.692 L1+γL3 0.708 0.720 0.714 βL2+γL3 0.594 0.632 0.613 L1(without G2)+βL2+γL3 0.718 0.728 0.723 L1+βL2+γL3 0.720 0.735 0.728 -
[1] ZHANG L, WANG L, LIN W. Generalized biased discriminant analysis for content-based image retrieval[J]. IEEE Transactions on Systems, Man, and Cybernetics: Part B, 2011, 42(1): 282-290.
[2] WANG B, YANG Y, XU X, et al. Adversarial cross-modal retrieval[C]//Proceedings of the 25th ACM International Conference on Multimedia, 2017: 154-162.
[3] 尹奇跃, 黄岩, 张俊格, 等. 基于深度学习的跨模态检索综述[J]. 中国图象图形学报, 2021, 26(6): 1368-1388. https://www.cnki.com.cn/Article/CJFDTOTAL-ZGTB202106007.htm YIN Q Y, HUANG Y, ZHANG J G, et al. Survey on deep learning based cross-modal retrieval[J]. Journal of Image And Graphigs, 2021, 26(6): 1368-1388. https://www.cnki.com.cn/Article/CJFDTOTAL-ZGTB202106007.htm
[4] 陈宁, 段友祥, 孙歧峰. 跨模态检索研究文献综述[J]. 计算机科学与探索, 2021, 15(8): 1390-1404. https://www.cnki.com.cn/Article/CJFDTOTAL-KXTS202108002.htm CHEN N, DUAN Y X, SUN Q F. Literature review of cross-modal retrieval research[J]. Journal of Frontiers of Computer Science & Technology, 2021, 15(8): 1390-1404. https://www.cnki.com.cn/Article/CJFDTOTAL-KXTS202108002.htm
[5] HARDOON D R, SZEDMAK S, SHAWE-TAYLOR J. Canonical correlation analysis: an overview with application to learning methods[J]. Neural Computation, 2004, 16(12): 2639-2664. doi: 10.1162/0899766042321814
[6] RASIWASIA N, MAHAJAN D, MAHADEVAN V, et al. Cluster canonical correlation analysis[C]//Artificial intelligence and statistics. Reykjavik: PMLR, 2014: 823-831.
[7] ZHANG L, MA B, LI G, et al. Generalized semi-supervised and structured subspace learning for cross-modal retrieval[J]. IEEE Transactions on Multimedia, 2017, 20(1): 128-141.
[8] LECUN Y, BENGIO Y, HINTON G. Deep learning[J]. Nature, 2015, 521: 436-444. doi: 10.1038/nature14539
[9] ANDREW G, ARORA R, BILMES J, et al. Deep canonical correlation analysis[C]//Proceedings of the 30th International Conference on Machine Learning. Atlanta: PMLR, 2013: 1247-1255.
[10] WANG W, YANG X, OOI B C, et al. Effective deep learning-based multi-modal retrieval[J]. The VLDB Journal, 2016, 25(1): 79-101. doi: 10.1007/s00778-015-0391-4
[11] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[J/OL]. (2017-01-30)[2021-07-01]. arXiv. https://arxiv.org/abs/1409.1556.
[12] NAIR V, HINTON G E. Rectified linear units improve restricted boltzmann machines[C]//Proceedings of the 27th International Conference on Machine Learning. Haifa: ACM, 2010: 807-814.
[13] FAN E. Extended tanh-function method and its applications to nonlinear equations[J]. Physics Letters A, 2000, 277(4/5): 212-218.
[14] MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality[J]//Advances in Neural Information Processing Systems, 2013, 26: 3111-3119.
[15] KIM Y, MOSCHITTI A, PANG B, et al. Convolutional neural networks for sentence classification[C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. Doha: ACL, 2014: 1746-1751.
[16] ZHEN L L, HU P, WANG X, et al. Deep supervised cross- modal retrieval[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 10394-10403.
[17] RASHTCHIAN C, YOUNG P, HODOSH M, et al. Collecting image annotations using amazon's mechanical turk[C]//Proceedings of the NAACL HLT 2010 Workshop on Creating Speech and Language Data with Amazon's Mechanical Turk. Los Angeles: NAACL, 2010: 139-147.
[18] LIU W, MU C, KUMAR S, et al. Discrete graph hashing[J]. Advances in Neural Information Processing Systems, 2014, 27: 3419-3427.
[19] RUPNIK J, SHAWE-TAYLOR J. Multi-view canonical correlation analysis[C]//Proceedings of the Conference on Data Mining and Data Warehouses. [S. l: s. n], 2010: 1-4.
[20] KAN M, SHAN S, ZHANG H, et al. Multi-view discriminant analysis[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 38(1): 188-194.
[21] ZHAI X, PENG Y, XIAO J. Learning cross-media joint representation with sparse and semisupervised regularization[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2013, 24(6): 965-978.
[22] WANG B K, YANG Y, XU X. Adversarial cross-modal retrieval[C]//Proceedings of the 2017 ACM on Multimedia Conference. Mountain View: ACM, 2017: 154-162.
[23] 刘爽, 乔晗, 徐清振. 基于批损失的跨模态检索[J]. 华南师范大学学报(自然科学版), 2021, 53(6): 115-121. doi: 10.6054/j.jscnun.2021101 LIU S, QIAO H, XU Q Z. The batch loss for cross-modal retrieval[J]. Journal of South China Normal University(Natural Science Edition), 2021, 53(6): 115-121. doi: 10.6054/j.jscnun.2021101
[24] KINGMA D P, BA J. Adam: a method for stochastic optimization[J/OL]. (2017-01-30)[2021-07-28]. arXiv. https://arxiv.org/abs/1412.6980.