基于批损失的跨模态检索

刘爽, 乔晗, 徐清振

刘爽, 乔晗, 徐清振. 基于批损失的跨模态检索[J]. 华南师范大学学报(自然科学版), 2021, 53(6): 115-121. DOI: 10.6054/j.jscnun.2021101
引用本文: 刘爽, 乔晗, 徐清振. 基于批损失的跨模态检索[J]. 华南师范大学学报(自然科学版), 2021, 53(6): 115-121. DOI: 10.6054/j.jscnun.2021101
LIU Shuang, QIAO Han, XU Qingzhen. The Cross-modal Retrieval Based on Batch Loss[J]. Journal of South China Normal University (Natural Science Edition), 2021, 53(6): 115-121. DOI: 10.6054/j.jscnun.2021101
Citation: LIU Shuang, QIAO Han, XU Qingzhen. The Cross-modal Retrieval Based on Batch Loss[J]. Journal of South China Normal University (Natural Science Edition), 2021, 53(6): 115-121. DOI: 10.6054/j.jscnun.2021101

基于批损失的跨模态检索

基金项目: 

广东省科技攻关计划项目 201903010103

详细信息
    通讯作者:

    徐清振,Email: 20061040@m.scnu.edu.cn

  • 中图分类号: TP391

The Cross-modal Retrieval Based on Batch Loss

  • 摘要: 针对跨模态检索中成对或三元组样本的方法构造了高度冗余且信息量少的样本对问题,提出了基于批损失的跨模态检索方法(BLCMR):首先,引入批损失,考虑了嵌入样本的相似性,有效地保持了跨模态样本的不变性;然后,引入迭代方法来修正预测的类别标签,有效地区分了样本的语义类别信息. 在3个公开的数据集(Wikipedia、Pascal Sentence和NUS-WIDE-10k)上的实验结果表明:BLCMR方法能够拉近跨模态样本间的距离,有效地提升最终的跨模态检索精度.
    Abstract: Aiming at the problem that the method of couplet or triplet samples in cross-modal retrieval constructs redundant but uninformative sample pairs, a cross-modal retrieval method based on batch loss (BLCMR) is proposed. Firstly, the batch loss is introduced, and by taking into account the similarity of embedded samples, the invariance of cross-modal samples is effectively maintained. Secondly, an iterative method is introduced to modify the predicted category labels and effectively distinguish the semantic category information of the samples. Experimental results on three public datasets (Wikipedia, Pascal Sentence and NUS-WIDE-10k) show that the BLCMR method can effectively improve the accuracy of the final cross-modal retrieval.
  • 植被物候是植被生长发育的周期性过程,在调节陆地生态系统碳平衡方面具有重要作用[1-2],通常可通过观察植被生长、发育、衰老过程中的关键节点(如幼芽萌发时间、叶片展开时间、叶片颜色变化时间)和卫星物候指标(如生长季节的开始日期、高峰期和结束日期)来确定[3]。由于气候变化的加剧将导致全球和地区干旱发生显著变化,干旱会对地区植被物候造成明显影响[4],因此,必须继续研究干旱与植被物候间的复杂作用机制,以了解未来生态系统物候的动态[5]

    随着卫星数据的广泛使用,全球大尺度物候学崭露头角。遥感方法可以更宏观、便捷地识别植被物候。一般通过定义生长季的开始日期(Start of the Season,SOS)和结束日期(End of the Season,EOS)来研究地区植被物候生长季长度及其对气候变化的响应特征[6-7]。植被物候遥感识别往往是基于植被指数或其他地表参量的季节变化而得。最常用的植被指数包括:归一化植被指数(Normalized Difference Vegetation Index,NDVI)[8]、增强型植被指数(Enhanced Vegetation Index,EVI)[9]、宽动态植被指数(Wide Dynamic Range Vegetation Index,WDRVI)[10]和陆地叶绿素指数(MERIS Terrestrial Chlorophyll Index,MTCI)[11]等。其中,NDVI是植被物候研究中首选的植被指数,其简便有效的计算方法在全球范围内得到了广泛认可[12]

    植被关键物候参数一般是对去噪后的植被指数时间序列进行提取。目前常用的关键物候参数确定的方法主要包括阈值法和植被指数变化检测法,其中,植被指数变化检测法通过直接检测植被指数时间序列曲线的变化特征来提取物候参数[12],能有效确定植被物候的关键参数[13]。如TATEISHI和EBATA[14]将植被指数时间序列上升幅度最大、下降幅度最大的时间点分别确定为春季物候的开始日期、秋季物候的结束日期。然而,在过去的植被物候与气候影响研究中,通常忽略了双季植被,并且缺乏地面数据校验,物候识别精度有待提高[15-16]

    气候变化导致自然灾害越发频繁。干旱是全球最严重的自然灾害之一,具有复杂、随机、多因素引发的特点[17],与植被物候变化关系密切。干旱指标是研究物候响应的基础,也是评估干旱对植被物候影响程度的重要指标。在干旱监测和研究物候对干旱的响应中,其定量化标准具有关键地位[18]。据统计,全球有上百种可供研究的干旱指标,各有优缺点,目前还没有一种适用于所有地区和所有时间尺度的指标[19]。标准化降水蒸散指数(Standardized Precipitation Evapotranspiration Index,SPEI)继承了标准化降水指数(Standardized Precipitation Index,SPI)多时间尺度的优点,并考虑了气温对蒸发的影响,能够较好满足多种类型的干旱评估需求[20-21]。同时作为区域干燥程度的气候指标,饱和水汽压差(Vapor Pressure Deficit,VPD)也是植被物候变化的前兆和标志[20-22]

    综上,本研究以中国中高纬度地区为研究区,综合利用GIMMS NDVI3g、气象站点数据和农气站点观测等多源数据,结合干旱指标SPEI和VPD,从更宏观、更全面的角度探讨干旱对植被物候的影响机制,以期为促进区域植被恢复、确保粮食产量与粮食安全提供科学参考。

    鉴于中国30° N以北地区(图 1)的农作物主要以一年一季或一年两季轮种为主,种植方式相对简单。因此,本研究重点探究中国30° N以北地区的植被物候特征及其与VPD、SPEI的响应特征。为了排除非植被土地利用类型变化的影响,研究利用MODIS卫星的土地覆盖气候模拟网格产品(https://modis.gsfc.nasa.gov/),剔除了2001—2014年间发生土地利用变化的区域、非植被用地类型(如荒地、水体、建筑用地、永久冰雪和永久湿地)以及小于100个像元的植被用地类型。

    图  1  研究区及其植被覆被类型分布图
    注:该图基于审图号为GS(2023)2767号的标准地图制作,底图无修改。
    Figure  1.  Distribution of the study area and its vegetation cover types

    本研究使用GIMMS NDVI3g数据集(半月合成最大值数据,空间分辨率为0.083 33°,来源:https://iridl.ldeo.columbia.edu/SOURCES),计算了1982—2014年植被的关键物候参数(SOS、EOS)。使用样条插值法,将中国气象数据网(CMDN)提供的1982—2014年786个监测站的逐日降雨量和气温数据插值为栅格数据,以匹配研究区的物候参数(空间分辨率为0.833 33°,来源:http://data.cma.cn/)。地面植被物候数据来自中国气象数据网的农作物生长发育和农田土壤湿度旬值数据集(http://data.cma.cn/),包含了1992—2013年在778个地点观测的不同植被的发育时期、株高等信息[23]。鉴于农作物种类繁多,为提高提取精度,本研究只选择研究区内种植面积较为广泛的小麦、玉米和水稻作为研究对象,剔除其他不满足条件的站点数据,最终选定了1992—2013年671个站点的小麦、玉米和水稻的生长记录。将地面数据中玉米的三叶期、小麦的出苗期和水稻的移栽期定义为SOS,而玉米、小麦和水稻的成熟期定义为EOS[13]。植被分类数据采用2001—2014年MODIS MCD12C1的IGBP分类数据(空间分辨率为0.833 33°,来源:https://modis.gsfc.nasa.gov/)。SPEI数据来源于中国区域日尺度SPEI数据集[21]

    由于大气和云层等因素可能对植被物候提取精度产生影响, 为了提高准确性,本研究采用SG滤波器对每个像素的NDVI时间序列曲线进行重建。SG滤波的公式[24]如下:

    Fi=12m+1mj=mCjfi+j,
    (1)

    其中:i是数据序列中数据点的索引, 表示当前正在计算的是哪一个数据点的平滑值;j是与i相关的一个位移索引, 用于在平滑窗口2m+1内对数据点进行遍历;fiFi分别为第i个原始数据、第i个过滤后的数据;Cj是滤波窗口的第j个权重值;m是滤波窗口大小的一半。最后, 使用二次样条法插值数据[25]。SG滤波器通过调整滤波窗口大小和多项式拟合阶数这2个参数,可以自由控制曲线的拟合程度[26]

    鉴于植物生长具有阶段性,本研究通过关注植被生长季的开始日期(SOS)和结束日期(EOS)来探究研究区物候的时空特征。为了识别双季物候,本研究利用重构后的NDVI曲线,通过计算每个像素点的NDVI曲线的二阶导数,找到每个生长季的前半季的局部最大值点,将其作为SOS,而后半季的局部最大值点则被定义为EOS[27]。本研究使用地面实测的物候数据,计算了各省不同植被类型的平均SOS和EOS。为了方便处理数据,文中所有物候参数指标以时间序日(day of the year, DOY)表示,例如1月10日记为一年中的第10天。时间窗口的定义是各省不同植被的SOS和EOS平均值的前后30天[13]

    为确保提取物候参数的准确性,本研究使用地面物候数据集进行验证;鉴于数据获取和目标研究区的植被生长状况,选择了3种植被类型:小麦、玉米和水稻;采用纳什决定系数(Nash-coefficient of determination,R2)[28]、纳什效率系数(Nash-Sutcliffe Efficiency,NSE)[29]和百分比偏差(Percentage Bias,PBIAS)[30]3个统计指标进行精度验证。3个统计指标的计算公式如下:

    R2=[ni=1(OiˉO)(PiˉP)]2ni=1(OiˉO)2ni=1(PiˉP)2,
    (2)
    NSE=ni=1(OiˉO)2ni=1(PiˉP)2ni=1(OiˉO)2,
    (3)
     PBIAS =ni=1(PiOi)ni=1Oi,
    (4)

    其中,Pi是被评估成分的第i个预测值,Oi是第i个观察值,P是预测值的平均值,Q是观察值的平均值,n是观察总数。已有研究[31-32]表明: 当R2>0.6、NSE>0.5、PBIAS<0.2时,精度结果可以满足本研究要求。

    饱和蒸汽压差(Vapor Pressure Deficit,VPD)是饱和水汽压与实际水汽压之间的差值,能够有效反映区域的空气干燥程度,值越大代表空气越干燥[33]。计算公式如下:

    VPD=esea
    (5)

    其中,esea分别是饱和水汽压、实际水汽压,计算公式如下:

    es=0.61078e17.27TT+237.3,
    (6)
    ea=RH100es,
    (7)

    其中,RH为空气相对湿度。

    本研究采用Pearson相关分析法,探索不同季前长度SOS、EOS与每个栅格的气候因素之间的相关关系。相关系数(r)的计算公式[34]如下:

    r=ni=1(xiˉx)(yiˉy)ni=1(xiˉx)2ni=1(yiˉy)2,
    (8)

    其中,xy分别为VPD或SPEI的时间序列、植被物候时间序列,xy分别为其平均值,n为时间序列长度。当数据服从正态分布时, 可使用如下公式检验相关系数r的显著性:

    t=rn21r2,
    (9)

    其中,t是检验统计量,n是数据的个数。在给定的自由度n-2和显著性水平α下, 通过查t分布临界值表, 查找P值大小,本研究选择P<0.05作为显著性水平标准,判断是否通过显著性检验。

    由1982—2014年的地面观测物候与遥感植被物候的验证结果(表 1)可知:3种植被综合物候提取精度验证结果中R2、NSE和PBAIS分别为0.97、0.95和-5.3%。其中水稻的拟合效果最好,其R2、NSE和PBAIS分别为0.99、0.95和-0.6%。结果表明遥感提取的物候参数符合本研究对数据精度的要求。

    表  1  植被物候提取精度
    Table  1.  Precision of climate extract candidates
    作物类型 R2 NSE PBAIS/%
    玉米 0.98 0.88 -6.5
    小麦 0.97 0.90 -6.3
    水稻 0.99 0.95 -0.6
    综合 0.97 0.95 -5.3
    下载: 导出CSV 
    | 显示表格

    1982—2014年,中国30° N以北地区中植被的多年平均SOS的空间分布如图 2所示。由单季植被与双季植被第1个生长季的SOS空间分布(图 2A)可知:(1)单季植被与双季植被第1个生长季的SOS并无明显纬度分布差异,在不同植被类型之间差异较大。华北平原地区植被的SOS最早,内蒙古自治区植被的SOS较晚。单季植被与双季植被第1个生长季的SOS集中在每年的第30~180天。(2)内蒙古自治区西部、吉林省和辽宁省等地植被的SOS出现较晚,集中在每年的第110~185天,该地区的植被类型以草地为主。而内蒙古自治区西北部与黑龙江省交界处的植被的SOS主要集中在每年的第100~110天。(3)东三省南部地区植被的SOS相对较早,集中在每年的第80~100天。青海省、西藏自治区与四川省交界处的大部分地区植被的SOS晚于每年的第110天。由双季植被第2个生长季的SOS的空间分布(图 2B)可知:(1)从空间上看,双季植被主要集中在黄淮海平原,双季植被第2个生长季的SOS集中在每年的第200~220天。(2)除河南省西部、安徽省西部的部分地区外,其他地区双季植被第2个生长季的SOS均早于每年的第200天。

    图  2  1982—2014年研究区植被的平均SOS空间分布图
    Figure  2.  Spatial distribution of mean SOS of vegetation in the study area from 1982 to 2014

    1982—2014年,中国30° N以北地区中植被的平均EOS的空间分布如图 3所示。由单季植被与双季植被第1个生长季的EOS的空间分布(图 3A)可知: (1)从内蒙古自治区中部逐渐向西至青海省、西藏自治区等地,植被主要以草地为主,植被的EOS大多出现在每年的第280天之后。(2)在江苏省北部和黄淮海平原等地以作物为主的区域,植被第1个生长季的EOS大多在每年的第220天之前。由双季植被第2个生长季的EOS的空间分布(图 3B)可知:双季植被以作物为主,主要分布在黄淮海平原,其植被的EOS从西南到东北逐渐推迟;双季植被的第2个生长季的EOS主要集中在每年的第260~300天。

    图  3  1982—2014年研究区植被的平均EOS空间分布图
    Figure  3.  Spatial distribution of mean EOS of vegetation in the study area from 1982 to 2014

    为了进一步探究不同植被类型物候期的差异性,本研究分析了不同植被类型SOS、EOS的差异。由植物生长季的SOS的箱型分布图(图 4A)可知: (1)森林、草地区域的SOS的时间整体差异不大,均集中在每年的第90~110天。(2)由于耕地种植的农作物不同,单双季种植植被间的SOS差异明显。其中早稻和冬小麦的SOS最早平均为每年的第53.64天和第59.43天,而夏玉米和晚稻作为第2季种植植被,它们的SOS也是最晚的,平均为每年的第194.04天和第193.54天。由植物生长季的EOS的箱型分布图(图 4B)可知: (1)早稻和冬小麦的EOS是最早的,平均为每年的第147.63天和第154.01天。(2)第2季植被与单季植被的EOS平均时间非常接近,集中在每年的第285~295天。

    图  4  不同植被类型的SOS与EOS的箱型分布图
    注:图中数字为对应植被类型的SOS/EOS的平均值。
    Figure  4.  Box distribution diagram of SOS and EOS in different vegetation types

    1982—2014年,中国30° N以北地区植被的SOS与季前VPD间相关性的空间分布(图 5A)和统计结果(图 5B)表明: (1)研究区内,有64.48%的地区植被的SOS与季前VPD呈负相关,其中38.1%的地区的相关性结果通过了显著性检验。这些区域主要位于吉林省、黑龙江省和内蒙古自治区的东北部。(2)研究区内,有13.23%的地区植被的SOS与季前VPD呈显著正相关,主要分布在辽宁省与内蒙古自治区的交界地区。由于全球变暖,全球饱和水汽压差会呈现增加的趋势,将使得我国东北北部植被物候的SOS明显推迟,而我国的30° N~45° N的中纬度地区植被的SOS将提前。

    图  5  植被的SOS与季前VPD相关性及显著性结果
    注:A图中的黑点区域为相关性结果通过显著性检验的区域,其他区域为相关性结果未通过显著性检验的区域;B图中的百分数为统计的不同相关性结果面积占比。
    Figure  5.  Correlation and significance result diagram between SOS of vegetation and pre-season VPD

    中国30° N以北地区植被的EOS与季前VPD间相关性、显著性的空间分布(图 6A)和统计结果(图 6B)表明: (1)研究区内,有66.05%的地区植被的EOS与季前VPD呈正相关,其中37%的地区的相关性结果通过了显著性检验,主要分布在吉林省、黑龙江省以及内蒙古自治区的东北部。(2)13.46%的地区植被的EOS与季前VPD呈显著负相关,主要集中在黑龙江省东部以及辽宁省与内蒙古自治区之间的交界地区。随着季前VPD的增加,我国大部分地区植被的EOS将提前,并且高纬度地区植被的EOS的提前情况更明显。

    图  6  植被的EOS与季前VPD相关性及显著性结果
    注:A图中的黑点区域为相关性结果通过显著性检验的区域,其他区域为相关性结果未通过显著性检验的区域;B图中的百分数为统计的不同相关性结果面积占比。
    Figure  6.  Correlation and significance results between EOS of vegetation and pre-season VPD

    由中国30° N以北地区植被的SOS与SPEI相关性、显著性的空间分布(图 7A)和统计结果(图 7B)可知: (1)研究区内,有58.88%的地区植被的SOS与SPEI呈正相关,而41.12%的地区为负相关。(2)研究区内,有17.50%的地区的相关性结果通过了显著性检验,这些区域主要分布在东北部的大兴安岭地区,呈现显著正相关的栅格占比为14.25%。总体而言,东北大兴安岭部分地区植被的SOS的响应相对较为敏感, 干旱多促使该地区植被的SOS提前。在吉林省、辽宁省与内蒙古自治区交界处,SPEI与植被的SOS之间则以负相关为主,干旱增加使得该地区植被的SOS被推迟。

    图  7  植被的SOS与SPEI相关性及显著性结果
    注:A图中的黑点区域为相关性结果通过显著性检验的区域,其他区域为相关性结果未通过显著性检验的区域;B图中的百分数为统计的不同相关性结果面积占比。
    Figure  7.  Correlation and significance result diagram between SOS of vegetation and SPEI

    由中国30° N以北地区植被的EOS与SPEI相关性、显著性的空间分布(图 8A)和统计结果(图 8B)可知: (1)SPEI与植被的EOS主要呈正相关,其面积占比约为67.49%,但只有6.06%的地区的相关性结果通过了显著性检验,主要集中在呼伦贝尔东部。(2)研究区内1.72%的地区植被的EOS与SPEI呈现显著负相关。总体而言,研究区内大部分地区,干旱发生将促使研究区内大部分地区植被的EOS提前。而在东北北部大部分地区植被的EOS随着干旱的发生将逐渐推迟。

    图  8  植被的EOS与SPEI相关性及显著性结果
    注:A图中的黑点区域为相关性结果通过显著性检验的区域,其他区域为相关性结果未通过显著性检验的区域;B图中的百分数为统计的不同相关性结果面积占比。
    Figure  8.  Correlation and significance result diagram between EOS of vegetation and SPEI

    本文以中国中高纬度区域为研究区,利用GIMMS NDVI3g长时间序列遥感数据集,采用Savizky-Golay滤波器与变点监测法,在栅格水平上提取不同植被类型的物候参数,并结合地面物候数据,验证遥感提取物候的精度,分析不同植被物候的时空演变特征。此外,基于气象数据计算VPD指数,结合改进的日SPEI数据集,表征研究区范围内植被物候对干旱的响应机制, 解析植被物候对干旱的响应特征。主要结论如下:

    (1) 不同地区的植被物候变化呈现明显的差异性。单季植被与双季植被第1个生长季的SOS集中在每年的第30~180天,而双季植被第2个生长季的SOS集中在每年的第200~220天。单季植被与双季植被第1个生长季的EOS主要集中在每年的第180~300天,双季植被的第2个生长季的EOS主要集中在每年的第260~300天。

    (2) VPD对植被物候的影响在不同地区呈现明显的空间差异。在以森林为主的吉林省、黑龙江省和内蒙古自治区东北部等地,季前VPD上升导致植被的SOS提前和EOS延迟;而在以草地为主的辽宁省与内蒙古自治区交界处,季前VPD上升导致植被的SOS滞后和EOS提前。

    (3) 研究区内大部分地区的SPEI与植被的SOS和EOS呈正相关,即干旱促使植被的SOS和EOS提前。然而,这种变化并不显著,只有山西省北部地区的变化趋势通过显著性检验。

    本研究提出基于遥感数据识别物候参数,结合VPD和SPEI较好地揭示了植被物候对干旱的响应特征,可以为区域遥感监测植被状况的变化、预警干旱可能对地区植被、农业造成的危害提供技术支持和理论依据。然而,植被生长物候是一个复杂而缓慢的过程,与气候因子之间关系复杂。本研究仅局限于干旱与植被物候间的响应关系,后续将从气温、降雨量和土壤湿度等其他可能影响植被物候的因素综合考虑,结合物理过程模型,从机理上探究植被物候对气候的响应机制。

  • 图  1   BLCMR方法的总体框架

    Figure  1.   The general architecture of the BLCMR method

    图  2   Wikipedia数据集上总损失值的变化曲线

    Figure  2.   The curve of total loss value on Wikipedia dataset

    图  3   Wikipedia数据集上的图像、文本样本的可视化

    注:相同颜色的样本具有相同的语义类别.

    Figure  3.   The visualization of the image and text samples on Wikipedia dataset

    表  1   数据集的划分

    Table  1   The partitioning of datasets

    数据集 Ntrain Ntest
    Wikipedia 2 173 462
    Pascal Sentence 800 100
    NUS-WIDE-10k 8 000 1 000
    注:NtrainNtest分别为训练、测试实例数.
    下载: 导出CSV

    表  2   跨模态检索的性能

    Table  2   The performance of cross-modal retrieval

    方法 Wikipedia Pascal Sentence NUS-WIDE-10k
    Img2Txt Txt2Img Avg Img2Txt Txt2Img Avg Img2Txt Txt2Img Avg
    CCA 0.134 0.133 0.134 0.225 0.227 0.226 0.378 0.394 0.386
    MCCA 0.341 0.307 0.324 0.664 0.689 0.677 0.448 0.462 0.456
    MvDA 0.337 0.308 0.323 0.594 0.626 0.610 0.501 0.526 0.513
    MvDA-VC 0.388 0.358 0.373 0.648 0.673 0.661 0.526 0.557 0.542
    JRL 0.449 0.418 0.434 0.527 0.534 0.531 0.586 0.598 0.592
    DCCA 0.444 0.396 0.420 0.678 0.677 0.677 0.532 0.549 0.540
    DCCAE 0.435 0.385 0.410 0.680 0.671 0.675 0.511 0.540 0.525
    CMDN 0.487 0.427 0.457 0.544 0.526 0.535 0.492 0.515 0.504
    CCL 0.504 0.457 0.481 0.576 0.561 0.569 0.506 0.535 0.521
    BDTR 0.492 0.465 0.478 0.648 0.670 0.659 0.570 0.586 0.578
    ACMR 0.460 0.450 0.455 0.658 0.664 0.661 0.590 0.595 0.592
    GSS-SL 0.504 0.461 0.483 0.624 0.623 0.623 0.542 0.557 0.550
    CM-GANs 0.521 0.466 0.494 0.603 0.604 0.604
    BLCMR 0.507 0.479 0.493 0.687 0.691 0.689 0.582 0.606 0.594
    下载: 导出CSV

    表  3   BLCMR方法及其L1L2L3的检索性能

    Table  3   The retrieval performance of the BLCMR method and its L1, L2 and L3

    方法 Wikipedia Pascal Sentence NUS-WIDE-10k
    Img2Txt Txt2Img Avg Img2Txt Txt2Img Avg Img2Txt Txt2Img Avg
    L1 0.484 0.464 0.474 0.661 0.661 0.661 0.575 0.593 0.584
    L2 0.184 0.154 0.169 0.147 0.139 0.143 0.137 0.138 0.138
    L3 0.281 0.162 0.222 0.493 0.273 0.383 0.331 0.221 0.276
    BLCMR 0.507 0.479 0.493 0.687 0.691 0.689 0.582 0.606 0.594
    下载: 导出CSV
  • [1]

    WANG B K, YANG Y, XU X. Adversarial cross-modal retrieval[C]//Proceedings of the 2017 ACM on Multimedia Conference. Mountain View: ACM, 2017: 154-162.

    [2]

    HOTELLING H. Relations between two sets of variates[J]. Biometrika, 1935, 28: 321-377. http://www.onacademic.com/detail/journal_1000036334687710_32bd.html

    [3]

    RUPNIK J, SHAWE-TAYLOR J. Multi-view canonical correlation analysis[C]//Proceedings of the Conference on Data Mining and Data Warehouses. [S. l. : s. n. ], 2010: 1-4.

    [4]

    KAN M, SHAN S G, ZHANG H K, et al. Multi-view discriminant analysis[C]//Proceedings of the 12th European Conference on Computer Vision. Florence: Springer, 2012: 808-821.

    [5]

    KAN M, SHAN S, ZHANG H K, et al. Multi-view discriminant analysis[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(1): 188-194. doi: 10.1109/TPAMI.2015.2435740

    [6]

    ZHAI X H, PENG Y X, XIAO J G. Learning cross-media joint representation with sparse and semisupervised regularization[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2014, 24(6): 965-978. doi: 10.1109/TCSVT.2013.2276704

    [7]

    AKAHO S. A kernel method for canonical correlation analysis[C]//Proceedings of the International Meeting of Psychometric Society. [S. l. : s. n. ], 2001: 263-269.

    [8]

    ANDREW G, ARORA R, BILMES J A, et al. Deep canonical correlation analysis[C]//Proceedings of the 30th International Conference on Machine Learning. Atlanta: PMLR, 2013: 1247-1255.

    [9]

    WANG W R, ARORA R, LIVESCU K, et al. On deep multi-view representation learning[C]//Proceedings of the 32nd International Conference on Machine Learning. Lille: PMLR, 2015: 1083-1092.

    [10]

    PENG Y X, HUANG X, QI J W. Cross-media shared representation by hierarchical learning with multiple deep networks[C]//Proceedings of the Twenty-Fifth International Joint Conference on Artificial Intelligence. New York: IJCAI, 2016: 3846-3853.

    [11]

    PENG Y X, QI J W, HUANG X, et al. CCL: cross-modal correlation learning with multigrained fusion by hierarchical network[J]. IEEE Transactions on Multimedia, 2018, 20(2): 405-420. doi: 10.1109/TMM.2017.2742704

    [12]

    ZHENG L, MA B P, LI G R, et al. Generalized semi-supervised and structured subspace learning for cross-modal retrieval[J]. IEEE Transactions on Multimedia, 2018, 20(1): 128-141. doi: 10.1109/TMM.2017.2723841

    [13]

    PENG Y X, HUANG X, ZHAO Y Z. An overview of cross- media retrieval: concepts, methodologies, benchmarks and challenges[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2018, 28(9): 2372-2385. doi: 10.1109/TCSVT.2017.2705068

    [14]

    PENG Y X, QI J W. CM-GANs: cross-modal generative adversarial networks for common representation[J]. ACM Transactions on Multimedia Computing Communications and Applications, 2019, 15(1): 1-24. http://arxiv.org/pdf/1710.05106

    [15]

    MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality[C]//Proceedings of the Advances in Neural Information Processing Systems. Lake Tahoe: [s. n. ], 2013: 3111-3119.

    [16]

    KIM Y, MOSCHITTI A, PANG B, et al. Convolutional neural networks for sentence classification[C]//Procee-dings of the 2014 Conference on Empirical Methods in Natural Language Processing. Doha: ACL, 2014: 1746-1751.

    [17]

    ZHEN L L, HU P, WANG X, et al. Deep supervised cross-modal retrieval[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 10394-10403.

    [18]

    WANG X, HAN X T, HUANG W L, et al. Multi-similarity loss with general pair weighting for deep metric learning[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 5022-5030.

    [19]

    ELEZI I, VASCON S, TORCINOVICH A, et al. The group loss for deep metric learning[C]//Proceedings of the 16th European Conference Computer Vision. Switzerland: Springer, 2020: 277-294.

    [20]

    WEIBULL J W. Evolutionary game theory[M]. Massachusetts: MIT Press, 1997.

    [21]

    ROSENFELD A, HUMMEL R A, ZUCKER S W. Scene labeling by relaxation operations[J]. IEEE Transactions on Systems, Man Cybernetics, 1976, 6(6): 420-433. http://ieeexplore.ieee.org/iel5/21/4309513/04309519.pdf

    [22]

    PELILLO M. The dynamics of nonlinear relaxation labeling processes[J]. Journal of Mathematical Imaging and Vision, 1997, 7(4): 309-323. doi: 10.1023/A:1008255111261

    [23]

    PEREIRA J C, COVIELLO E, DOYLE G, et al. On the role of correlation and abstraction in cross-modal multimedia retrieval[J]. IEEE Transations on Pattern Analysis and Machine Intelligence, 2014, 36(3): 521-535. doi: 10.1109/TPAMI.2013.142

    [24]

    RASHTCHIAN C, YOUNG P, HODOSH M, et al. Collecting image annotations using Amazon's Mechanical Turk[C]//Proceedings of the 2010 Workshop on Creating Speech and Language Data with Amazon's Mechanical Turk. Los Angeles: Association for Computational Linguistics, 2010: 139-147.

    [25]

    CHUA T P, TANG J H, HONG R C, et al. NUS-WIDE: a real-world web image database from National University of Singapore[C]//Proceedings of the 8th ACM International Conference on Image and Video Retrieval. Santorini Island: ACM, 2009: 1-9.

    [26]

    FENG F X, WANG X J, LI R F. Cross-modal retrieval with correspondence autoencoder[C]//Proceedings of the ACM International Conference on Multimedia. Orlando: ACM, 2014: 7-16.

    [27]

    KINGMA D P, BA J. Adam: a method for stochastic optimization[J/OL]. arXiv, (2014-12-22)[2021-04-26]. https://arxiv.org/abs/1412.6980v8.

    [28]

    BELLET A, HABRARD A, SEBBAN M. A survey on me-tric learning for feature vectors and structured data[J/OL]. arXiv, (2013-02-12)[2021-04-26]. http://arxiv.org/abs/1306.6709.

    [29]

    MAATEN L V D, GEOFFREY H. Visualizing data using t-SNE[J]. Journal of Machine Learning Research, 2008, 9: 2579-2605. http://arxiv.org/abs/2108.01301v1

图(3)  /  表(3)
计量
  • 文章访问数:  686
  • HTML全文浏览量:  116
  • PDF下载量:  139
  • 被引次数: 0
出版历程
  • 收稿日期:  2021-05-01
  • 网络出版日期:  2022-01-09
  • 刊出日期:  2021-12-24

目录

/

返回文章
返回