融合时空域注意力模块的多流卷积人体动作识别

吴子依, 陈泯融

吴子依, 陈泯融. 融合时空域注意力模块的多流卷积人体动作识别[J]. 华南师范大学学报(自然科学版), 2023, 55(3): 119-128. DOI: 10.6054/j.jscnun.2023043
引用本文: 吴子依, 陈泯融. 融合时空域注意力模块的多流卷积人体动作识别[J]. 华南师范大学学报(自然科学版), 2023, 55(3): 119-128. DOI: 10.6054/j.jscnun.2023043
WU Ziyi, CHEN Minrong. Multi-stream Convolutional Human Action Recognition Based on the Fusion of Spatio-Temporal Domain Attention Module[J]. Journal of South China Normal University (Natural Science Edition), 2023, 55(3): 119-128. DOI: 10.6054/j.jscnun.2023043
Citation: WU Ziyi, CHEN Minrong. Multi-stream Convolutional Human Action Recognition Based on the Fusion of Spatio-Temporal Domain Attention Module[J]. Journal of South China Normal University (Natural Science Edition), 2023, 55(3): 119-128. DOI: 10.6054/j.jscnun.2023043

融合时空域注意力模块的多流卷积人体动作识别

基金项目: 

国家自然科学基金项目 61872153

详细信息
    通讯作者:

    陈泯融,Email:chenminrong@scnu.edu.cn

  • 中图分类号: TP391

Multi-stream Convolutional Human Action Recognition Based on the Fusion of Spatio-Temporal Domain Attention Module

  • 摘要: 为了更好地提取并融合人体骨架中的时序特征和空间特征,文章构建了融合时空域注意力模块的多流卷积神经网络(AE-MCN):针对目前大多数方法在建模骨架序列相关性时因忽略了人体运动特性而没有对运动尺度进行适当建模的问题,引入了自适应选取运动尺度模块,从原尺度动作特征中自适应地提取关键时序特征;为了更好地对特征进行时间维度和空间维度上的建模,设计了融合时空域的注意力模块,通过对高维时空特征进行权重分配,进而帮助网络提取更有效的动作信息。最后,在3个常用的人体动作识别数据集(NTU60、JHMDB和UT-Kinect)上进行了对比实验,以验证AE-MCN网络的有效性。实验结果表明:与ST-GCN、SR-TSL等网络相比,AE-MCN网络都取得了更好的识别效果,证明AE-MCN网络可以对动作信息进行有效的提取与建模,从而获得较好的动作识别性能。
    Abstract: In order to better extract and fuse the temporal and spatial features in the human skeleton, a multi-stream convolutional neural network (AE-MCN) that integrates spatio-temporal domain attention module is constructed in this paper. Aiming at the problem that most methods ignore the human motion characteristics when mo-deling the correlation of skeleton sequences, so that the scale of the action is not properly modeled, an adaptive selection motion-scale module is introduced in this paper, which can automatically extract key temporal features from the original scale action features; in order to better model features in the temporal and spatial dimensions, an attention module integrates spatio-temporal domain is designed to help the network extract more effective action information by assigning weights to high-dimensional spatio-temporal features. Finally, the comparative experiments were conducted on three commonly used human action recognition datasets (NTU60, JHMDB and UT-Kinect) to verify the effectiveness of the network AE-MCN proposed in this paper. The experimental results proved that compared with ST-GCN, SR-TSL and other networks, the network AE-MCN has achieved better recognition results, which proved that AE-MCN can effectively extract and model the action information, so as to obtain better action recognition performance.
  • 自然界中的群体生物通过分工合作、相互协调,可涌现出整体性的智能行为,完成复杂任务,具有高度的自组织、自适应、自学习能力。早在1911年,WHEELER[1]就提出超有机体(superorganism)的概念,指出一些昆虫群体通过相互协作可以使群体整体具备适应复杂多变的环境的能力,因此可以将昆虫群体的整体看作是一个有机体,即超有机体。随后,人们在越来越多的领域中观察到群体的智能涌现与演化现象。例如,在生物界中,蜂群中的蜂王、工蜂和雄蜂具有不同形态和职能,通过分工合作且相互依存来维系蜂群的生存和繁衍;蚁群以“信息素”为媒介来实现相互协作,可以发现到达食物的最短路径;鸟群和鱼群根据邻近个体的行进路线来调节自身的行进路线,从而呈现出特殊的飞行队形或者成团游动;此外,自然界中如分子等微小粒子的运动、细菌的群落运动、进化论中生物基因的演化与自然选择过程等,乃至人类社会中的社会分工、信息传播、文化传承和集体决策等行为,都是群体智能的体现。随着计算机科学与技术的不断发展,研究人员运用数学和计算机工具对群体智能的涌现与演化行为进行模拟,从不同角度发展出一系列群体智能涌现与演化的机理和模型。

    广义上,群体智能是指汇聚群体智慧协同求解大规模复杂问题的智能方法。依据群智现象的思想来源,群体智能存在众多不同的研究分支。20世纪90年代,基于生物进化角度发展出进化计算(Evolutio-nary Computation)这一学科[2],主要包括:进化编程(Evolutionary Programming)、遗传算法(Genetic Algorithm)和进化策略(Evolution Strategy)等方法。目前,进化计算已成为求解复杂优化问题的重要工具。

    从生物行为的角度,REYNOLDS[3]于1986年通过模拟鸟群等生物群体的行为,构建了BOIDS分布式群体行为系统,该系统被广泛应用于电影动画中对鸟群、鱼群行为的模拟;20世纪90年代,DORIGO、GAMBARDELLA和SLOWIK分别通过模拟蚁群、鸟群的群体智能行为,提出了蚁群优化(Ant Co-lony Optimization)[4]和粒子群优化(Particle Swarm Optimization)[5]方法,其核心思想是通过对蚁群、鸟群等群体社会性生物的间接通信(stimergy)和协作方式抽象建模并在计算机上进行模拟来解决复杂问题,这2种方法在求解复杂工程优化问题上具有广泛的应用。

    从物理学与系统科学的角度,一些研究人员将群体看作一个复杂系统,将群体智能视为集体动力学的呈现,认为系统会随着时间和空间发生演化,系统所呈现的智能现象及其功能实际上是系统结构和动力学相结合的涌现结果,由此可以采用群体的动力学系统来阐述和刻画群体的智能涌现和演化行为[6]。随着复杂网络学科的快速发展,ZELINKA等[7]采用复杂网络来描述群体中个体之间的通信拓扑结构,通过复杂网络的演化及其相关的动力学特性来分析群智涌现与演化现象,形成了网络群体智能这一研究分支。

    从机器人与自动化控制的角度,多智能体系统(Multi-agent Systems)[8]已成为了人工智能领域的一个重要的研究分支,其核心思想在于通过多个独立自治的智能体相互协同来处理复杂的大规模任务, 通过博弈论和强化学习方法来训练智能体对环境变化的响应能力,从而提升多智能体系统的任务求解性能。

    近年来,随着互联网技术的快速发展,大规模的互联网用户群体成为了网络空间数据和服务的贡献者,涌现了基于互联网的群体智能协作新形态,进一步拓宽了群体智能演化计算的范畴。在互联网环境下,人成为了参与群体智能涌现与演化的主体,衍生出人计算(Human Computation)[9]、以人为中心的计算(Human-Centered Computing)[10]、社会计算(Social Computing)[11]和集体智能(Collective Intelligence)[12]等概念,并在众包计算、开源软件开发和互联网百科全书等领域呈现出广泛的应用。由于人类活动的复杂性,基于互联网的群体智能系统进一步对群智涌现与演化机理的探索提出了新挑战。

    尽管上述研究领域各有侧重,但其本质都是通过群体协作涌现出智能行为来求解复杂问题。一般而言,基于简单生物或非生物个体汇聚而涌现出的群体智能行为称为群集智能(Swarm Intelligence,SI);将面向人类社会的群体智能行为称为群体智能(Crowd Intelligence,CI)。

    为进一步理清群智涌现与演化计算的主要研究方向,本文参考上述提及的不同研究视觉,按照图 1所示的整体思路,分析当前群智涌现与演化计算的主要模型、理论和方法,对该方向未来的发展趋势和主要科学问题进行展望,尤其是从生物群体、智能体群体和人类社会群体等不同视觉分析现有理论方法的联系和差异,从而促进跨学科合作推动创新。基于这一思路,本文将从如下几个方面对群智演化协同计算进行综述和分析。具体包括:

    图  1  群智演化协同计算的研究视角及主流模型与方法
    Figure  1.  The research perspective, mainstream models and methods of crowd intelligence and cooperative evolutionary computing

    (1) 群智涌现与演化的理论和机理:研究群体如何涌现出智能行为、如何通过群体之间及群体与环境之间的交互而逐渐演化,为群智协同计算研究提供理论基础。

    (2) 群智的组织结构与调控机制:研究如何干预和调控群体的组织结构,进一步促进群智的涌现与演化行为,实现群体面向全局目标的可引导。

    (3) 群智协同决策:研究如何利用群智的涌现与演化行为来实现协同决策,协同求解超大规模复杂问题,实现群体协作的可扩展。

    (4) 群智演化协同计算的代表性应用:概述上述的群智演化协同计算的代表性应用,为进一步完善相关理论方法和关键技术提供支持。

    本文的组织结构如下:第1部分概述群智涌现与演化的理论和机理;第2部分概述群智演化的组织结构与调控机制;第3部分概述群智演化协同决策方法;第4部分介绍群智演化协同计算的代表性应用;第5部分将结合当前人工智能、复杂系统科学、物联网和边云融合计算等前沿领域,探索群智协同演化计算的未来发展趋势和关键问题;第6部分将进行总结。

    为描述群体智能的涌现与演化行为、分析群智系统的发展规律、通过群体智能协作实现复杂问题求解,已有研究从多个角度构建了群体智能的基本模型及其相应的理论体系,包括基于生物群体启发的演化计算(Evolutionary Computation)、群集智能(Swarm Intelligence)方法以及演化博弈理论(Evolutionary Game Theory),面向人工智能群体的多智能体系统(Multi-Agent System)及多智能体强化学习理论(Multi-Agent Reinforcement Learning),以及面向人类群体智能协作的方法。本章将围绕上述群体智能涌现与演化的主要模型和方法开展综述。

    演化计算和群集智能是受自然界的群体智能现象启发而设计的智能优化方法。其中,演化计算以种群为基础,以“优胜劣汰”的自然选择为演化机制,通过繁殖、竞争、再繁殖、再竞争的演化规律寻求最优解。代表性算法包括遗传算法(Genetic Algorithm)[13]、遗传编程(Genetic Programming)[14]、进化策略(Evolutionary Strategy)[15]和进化编程(Evolutionary Programming)[16]等。除了模拟生物演化行为,近年来一些依据数学方法进化的演化计算方法也得到广泛应用,例如差分进化算法(Differential Evolution)[17]、分布估计算法(Estimation of Distribution Algorithm)[18]等。群集智能则通过模拟自然界中群体社会性生物的智能行为(例如蚁群的觅食行为、鱼群和鸟群的协同行为等)来实现整个种群的协作和寻优[2],代表性算法包括由DORIGO和GAMBARDELLA[4]提出的蚁群优化算法(Ant Colony Optimization)和SLOWIK[5]提出的粒子群优化算法(Particle Swarm Optimization)。

    演化计算和群集智能的理论基础主要包括数学基础、生物学基础和社会学基础等方面。在数学基础上,已有学者尝试从随机过程及马尔科夫链[19]、统计学习过程[20]、收敛性分析[21]和稳定性分析[22]等角度,研究演化计算和群集智能优化算法的智能涌现、演化与自组织规律和特性;在生物学基础上,借鉴自然界中蕴含的各类群体演化现象和机理,学者们从优胜劣汰、适者生存、自然选择、生物进化、遗传规律、人脑模拟、生物迷失和免疫演化等角度来探索演化计算的新理论和新模型[3-5];在社会学基础上,学者们借鉴社会生物学乃至人类社会中涌现的各类群智现象,如个体认知、集体智慧、个体竞争、群体博弈和群体协作等,为理解、分析和调控群智涌现与演化行为提供新理论和新途径[9-11]

    大量研究人员尝试设计和改进演化计算和群体智能算法,从而使算法可高效地求解一些复杂的优化问题,如多目标优化问题、多峰优化问题、约束优化问题、大规模优化问题和昂贵优化问题等。其中,针对多目标优化问题,算法设计的核心思想是使种群兼顾多个优化目标之间的信息,在演化过程中加入支配准则信息,使种群快速收敛到帕累托前沿(Pareto Front),较为代表性的算法有基于支配排序的多目标优化算法(如NSGA-Ⅱ[23]、NSGA-Ⅲ[24]等)、基于分解的多目标优化进化算法(如MOEA/D[25]等)以及基于指标的多目标优化进化算法(如FV-MOEA[26]等)。针对多峰问题,如何使种群保持充足的探索能力和搜索多样性,并且能在搜索过程中保留不同峰域的信息是关键所在,常用的方法是引入小生境(Niching)策略,如多峰差分进化算法(MEDA)[27]、自适应多峰蚁群优化算法(AM-ACO)[28]等。针对约束优化问题,演化计算方法在求解优化问题的过程中需要考虑所得解是否在可行域内,通过约束处理技术找到有效可行域并且收敛到可行域内的最优解。常用的约束处理技术有基于惩罚函数的方法[29]、基于可行解支配的方法[30]和基于多目标优化处理的方法[31]。随着问题维度的增大,搜索空间呈指数型增长,在面对如此广阔的样本空间,传统的演化算法难以达到高效的搜索,同时增加了群体的搜索时间。现有的求解大规模问题的演化算法主要通过2种途径:(1)协同演化(Coopera-tive Coevolution),即将大规模问题解耦为若干个弱关联性的小规模问题,每个子种群专注求解一个子问题,子种群之间协同演化以实现全局寻优,如大规模协同进化方法[32]、双层分布式协同进化方法[33]等;(2)整体演化,即通过设计更高效的群体进化和学习算子,使得群体搜索过程具备优秀的全局探索(exploration)和局部开发(exploitation)能力,如基于竞争的大规模粒子群优化算法[34]、基于分层学习的大规模粒子群优化算法[35]等。针对目标函数的计算代价非常昂贵的优化问题,为了降低传统演化算法所需的上万次甚至几十万次的适应值评估代价,有学者提出基于代理模型辅助的演化计算方法来求解此类昂贵优化问题,即借助统计学习和机器学习方法构建适应值评估模型并用以取代目标函数评价,从而克服求解昂贵优化问题的效率瓶颈[36-37]

    由于优越的求解效率和质量,演化计算和群集智能不仅在计算智能领域得到了发展,与其他研究领域也逐渐交融,并且在求解复杂的工业优化问题中产生较好的结果,有较为广泛的应用前景。

    演化博弈论(Evolutionary Game Theory)是基于有限理性假设和生物演化思想提出的研究个体行为方式发生、转化、扩散以及稳定的理论,该理论在生物学、经济学、管理学与计算机领域发挥重大的作用。20世纪70年代,SMITH和PRICE[38]、TAYLOR和JONKER[39]将生物进化的思想引入博弈论,提出了演化博弈的思想。传统博弈论假设参与博弈的个体是完全理性的,而演化博弈中的参与个体是有限理性的且能够根据当前博弈局势不断调整自己的策略,通过每个参与个体的不断学习与调整,最终整个群体达到一个演化稳定状态。演化博弈与演化计算都是借鉴生物进化理论与生物行为规律得到的研究方法,但不同的是演化计算大多采用同质的个体与全局的目标函数进行演化,而演化博弈采用的是异质的个体与个体的目标函数进行演化。个体之间通过不断博弈与竞争来改进整体目标,演化博弈的全局目标是所有个体目标的整体涌现。

    演化博弈已在各类现实问题中得到广泛的应用。如:KHAN等[40]提出了一种演化博弈的框架,用于实现车联网(VANETs)系统中数据传输节点的自动聚类与簇头题名功能,该方法能够提高簇的稳定性、降低簇的频繁重组开销;TIAN等[41]利用演化博弈理论,对车联网信誉管理系统中的恶意用户攻击行为进行建模,模型的仿真结果可用于评估信誉管理系统防御恶意攻击的性能;ALAM等[42]基于演化博弈与流行病传播动力学建立了一个分析框架,分析结果表明除了进行接种疫苗这一主动预防措施外,洗手、戴口罩等中度防御措施在某种程度上有利于遏制传染病的大规模蔓延。复杂网络上的演化博弈也引起了广泛的关注。如:CHICA等[43]对网络结构上的多人信任博弈与其演化动态进行了研究,研究表明低密度的异构网络结构有利于保持较高的信任度并促进社会财富的积累;基于演化博弈的思想,FANG等[44]研究了小世界网络结构下政府的激励措施与用户偏好对新能源充电设施建设的影响,研究结果表明动态的政府补贴与税收措施有利于充电站的普及,新能源汽车的普及率与充电价格也是充电站建设的主要推动因素之一。

    多智能体系统(Multi-Agent System)是多个智能体组成的集合,通过多个小的智能体之间的交互通信与协调合作来解决大型和复杂的现实问题;具有自主性、分布性和协调性,并具有自组织能力、学习能力和推理能力。多智能体系统能高效地解决实际应用问题且具有很强的鲁棒性和可靠性,已成为人工智能发展的热点。研究者主要研究智能体之间的交互通信、协调合作和冲突消解等方面,强调多个智能体之间的紧密群体合作,而非个体能力的自治和发挥,主要说明如何分析、设计和集成多个智能体,以构成相互协作的系统[8]

    多智能体之间的通信问题一直是研究的关键。如:WANG等[45]提出了一种基于观测器的控制策略,该策略可以解决离散时间下网络化多智能体系统的编码解码通信协议(CDCP)的控制一致性问题;LIU等[46]定义了一种滑模流形向量,将分数阶多智能体系统转化为整数阶多智能体系统,并设计了一种一阶多智能体系统控制协议,以解决有限时间内的通信一致性问题;LV等[47]研究了异构线性多智能体系统的控制一致性问题,提出了一种分布式比例积分(PI)协议,该协议可以保证一致性误差的一致极限有界性。

    多智能体系统可能具有不同的拓扑结构,这对系统的可控性带来了更大的挑战。SU等[48]研究了双尺度离散时间下多智能体系统的可控性问题,利用矩阵理论给出了系统可控的一些充分必要条件,并在3种网络拓扑结构下利用图论给出了可控性的必要判定依据。TIAN等[49]研究了具有异构性和切换拓扑结构下的多智能体系统的可控性与可观测性,其中系统一阶与二阶信息交互的拓扑结构是不同的并且是相互切换的;从图论的角度考虑了系统的可控性,即如果所有可能的拓扑结构的并集图都是可控的,则系统是可控的。

    多智能体系统在实际运行过程中很可能会面临输入扰动与未知干扰的问题。如:CHEN等[50]应用模糊逻辑系统解决带有不确定性输入扰动的未知非线性多智能体系统的全局一致性问题;ZHANG等[51]研究了具有未知干扰的非线性多智能体系统的事件触发跟踪控制问题,在控制器更新中考虑了事件触发机制,在实际应用中能有效减少通信量和控制器更新的频率。

    多智能体技术能有效解决分布式网络与智能机器人群体中的协调性问题。如:ZHAO等[52]提出了一种基于多智能体强化学习的分布式优化方法,该方法能在保证异构蜂窝网络设备服务质量的同时,最大化网络的长期整体效用;LIU等[53]提出了一种分布式鲁棒性控制器,用于解决四翼飞行器的鲁棒性编队控制问题。多智能体系统的安全性也引起研究者的关注。如:XU等[54]设计了一种基于事件触发和隐私保护的算法,以保障多智能体系统在拒绝服务攻击(DoS)下能维持安全一致性。

    演化强化学习(Evolutionary Reinforcement Learning)是结合演化计算和强化学习的一种混合型学习算法[55]。其中,演化计算的原理是通过个体的检索行为、个体之间的协作和种群内部的信息共享来不断更新最优解,并通过迭代学习实现适应度最大化。强化学习的目标是通过智能体感知环境变化并借助内部学习策略来确定能获得最佳激励期望的行动方案,通过改变自己在环境中的状态来与环境交互并得到反馈,通过持续的调优来实现激励最大化或达成目标。二者的共同之处在于它们都是优化方法,都通过智能体与环境的反馈来实现全局寻优。不同之处在于:强化学习中的优化对象是激励函数,是对单个智能体行为的模拟奖励,真正的系统反馈发生在智能体随调整后的激励函数发生行为改变之后,有滞后性,该动态反馈式方法适合应用于探索陌生环境;演化计算的优化对象通常是目标函数,是对多个智能体生成的多个解的直接系统反馈,有助于求解非凸优化问题,不适合目标函数未知或目标函数有滞后性的情形。针对演化算法和强化学习的特点,现有的演化强化学习的研究目标可分为2类:

    (1) 通过演化算法提升强化学习性能,特别是克服强化学习在解决现实中的复杂优化问题时面临的初始化困难、效率低和不稳定等缺点。如:WHITESON和STONE[56]提出通过在线演化计算方法来选择智能体学习的近似函数,从而改善强化学习的学习效率和效果;HEIDRICH-MEISNER和IGEL[57]通过CMA-ESs来选择合适的搜索策略,以降低强化学习的不确定性;GIRGIN和PREUX[58]给出的GP算法用一个种群的智能个体来表示一组特征集,每个个体的适应度值通过短期强化学习的平均性能来评价;LIU等[59]总结了多目标强化学习问题,该问题是典型的适合多目标演化算法来求解的问题范畴。此外,利用演化算法本身的并行性也能够提高传统强化学习算法的效率以及全局搜索能力[55]

    (2) 通过强化学习的局部策略来改进演化算法,如实现自适应参数调整、自适应算子选择和跳出局部最优等。强化学习中用到的部分策略和方法已经被证实能改进演化算法的性能,如:层次老虎机(Hierarchical bandits)策略被用于平衡EC算法在搜索解空间时的探索性和开发性[60];带反馈的自适应选择概率分布被用于自适应GA算法等[61]。然而,由于强化学习解决的问题和演化算法解决的问题具有较大差异,大多数研究仍局限于借鉴强化学习的局部搜索策略来改进演化算法,而很少有纯粹的“强化演化学习”算法。在现实应用中,是否存在既符合强化学习问题特征又具备演化学习问题特征的应用场景是研究“强化演化学习”前首先要思考的问题。

    长期以来,研究者在许多群居昆虫身上观察到构成群体的每一个体都不具有智能或仅具有有限的智能,但整个群体却表现出远超任一个体的智能行为。如果将群体智能所体现的机制应用于一大批通过网络空间互联的人群,则将对个体智能产生放大效应并释放出人类社会的强大力量[62]。群体智能是群智协同的一个典型案例,知识整合也被运用到群智协同的在线协作中。知识整合是将外部化和分散在团队成员之间的互补的未共享信息进行综合,从而通过团队成员之间的相互协同,最终做出知情的联合决策,即非共享信息的系统合成是知识整合成功的关键。此外,智能代理利用用户数据实现个性化系统行为,从而满足个人需求,是快速发展起来的新型群智协同工作模式。下文从群体智能、知识整合和智能代理3个方面来阐述群智协同最近的发展动态。

    群体智能很大程度上可以从社会互动中获益,但需注意社会互动过程中存在的社会偏见。在集体决策问题上,一个小组必须在若干备选办法中确定正确答案,广泛的辩论和审议并不一定会产生更高的准确性。群体思维、两极分化和巴尔干化是社会制度中有害影响最明显的例子[63]。同样地,盲目地从一组个体中收集信息可能不是最优的,因为反应的分布可能会有很大的偏差。为了提高群体智能,应该认真利用社会信息。群体智能描述了个体间的聚合判断往往比一个典型个体的判断更准确,甚至可能比任何单个个体的判断更准确[64]。理论上,最大限度提高综合判断准确度的最优聚合方法是个体判断的加权平均,其中最优权重由个体判断的准确性、可靠性和依赖性决定。然而,单个判断的简单平均法可能比加权平均法更好,因为判断偏差、方差和相关性是未知的,从经验数据进行估计会产生不稳定的权重。

    对于拥有分布式知识的在线协作团队来说,知识整合是一个具有挑战性的冒险[65]。例如,拥有异质知识的团队对于成员所掌握的知识内容往往只有模糊甚至错误的想法。如果合作伙伴彼此不认识,只是在线交流,情况就会更加复杂。VILALTA和DRISSI[66]发现,元知识是一种很有前途但尚未得到充分研究的促进知识整合的方法。OSINSKI和RUMMEL[67]模拟了具有异构知识的伙伴之间基于聊天的协作,在一项给定的任务中,通过一个隐藏配置文件给参与任务协作的学生分配特定的信息,为了获得正确的联合解决方案,协作伙伴必须共享他们掌握的信息,研究结果显示元知识操作对协作的2个关键因素(知识整合和交互记忆系统)的建构有正向影响。

    智能代理利用用户数据进行系统行为个性化,从而满足个人需求,因此在日常IT产品和服务中越来越流行。例如,用于邮件优先排序、新闻过滤和内容推荐的智能代理已被广泛应用于移动服务,以有效管理信息超载。另外,智能恒温器和可穿戴设备可以为用户日常生活中的各种活动提供个性化支持。为了提高代理商对用户的了解和个性化服务体验的质量,代理商与用户的合作是很重要的。KIM和LIM[68]设计了“合作代理”,这是一种基于Wizard-of-Oz的研究探索机制,通过帮助用户建立伙伴关系的思维方式来与用户合作学习。

    以上研究表明,随着互联网的发展,协同的场景、成分、约束逐渐复杂,群智协同技术在协同计算的基础上逐步融合了大数据、统计机器学习等人工智能技术,基于群智协同的理论以及模型逐步完善,能够处理更多现实场景中的复杂问题。

    在群体演化的过程中,个体为了将自身的演化信息传播到整个群体,亦或个体为了获取群体内其他个体的信息,群体内部的个体之间需要频繁的信息交流、交互,实现有组织、有结构的智能群体。早期的群智算法研究认为群体内部的个体是相对简单的同构组织,即每个个体赋予统一的功能,解决同一任务。随着问题和环境的复杂化,研究者进一步研究异构群体结构,即每个个体允许有不同的功能,从而不同的个体可以解决与之匹配的任务。基于现实问题中普遍存在的复杂网络特征,学者们基于复杂网络结构,构建群体系统的组织架构,实现群体结构的有机组织[69]

    传统的演化算法考虑的是群体内部可以随时无差别地共享信息,即个体之间的交互拓扑是全联通网络。随着问题的规模和复杂度日益增长,全联通的拓扑结构导致群智系统信息交互过于迅速,使得群体存在早熟收敛的问题,例如在优化问题,群体极易被精英个体带入局部最优区域。针对群体的拓扑结构,当前的研究工作采用的模型主要包括细粒度的元胞模型和粗粒度的分布式模型[70]

    元胞模型也称为扩散模型。在元胞模型中,种群分布在一个网格中,每个个体在网格中有一个唯一的坐标,个体只能与其邻域中的个体产生信息交互,而信息通过网格从邻域到邻域的扩散较为缓慢,因此,元胞模型下的种群早熟收敛的风险较低,可较好地保持群体多样性。代表性的元胞模型[71]有环状拓扑、冯诺依曼拓扑、随机拓扑和星状拓扑等。分布式模型也称为孤岛模型或多种群模型。在分布式模型中,一个大群体被划分为几个较小的子群体(岛屿)。不同的子群体可以采取不同的演化规则,个体可以根据既定的迁移政策在岛屿之间迁移,使得子群体可以探索搜索空间的不同区域,同时通过个体迁移和协同来共享信息,从而可以保持种群多样性[72]

    复杂网络是介于传统规则网络和完全随机网络之间的一种网络,是对真实世界网络复杂性的模拟,具有自组织、自相似、小世界和无标度等特性。复杂网络为群智系统中多智能体之间的连接和通讯提供了多样化的选择。从网络科学的角度看,将种群中的个体视作节点,个体之间的通讯视作边,则整个种群可构成网络化的系统[7]。现有的基于复杂网络的群智拓扑研究可分为2类:基于复杂网络结构的群智拓扑和基于复杂网络特性的群智拓扑。

    第一类研究直接将复杂网络的拓扑结构引入到种群结构设计中,作为个体之间通讯和交互的基础。例如,无标度网络[73]和小世界网络[74]都曾被用作个体之间的连接模式。KIRLEY和STEWART[75]尝试将种群个体映射到包括规则网络、小世界网络、无标度网络和随机网络等不同的复杂网络结构上,以解决扩展多目标优化问题。但总体来看,早期的基于复杂网络拓扑结构的群智算法过于侧重种群结构设计,忽略了问题解空间的特性,因而对算法性能的提升有限[76]。WU等[77]提出让个体在复杂网络中移动,动态改变个体之间的联系和搜索模式,使得算法呈现良好的灵活性和多样性,该研究所属的动态网络拓扑结构研究是具有潜力的研究方向之一。KOROSH和CLEOTILDE[78]提出了LT算法,该算法能在没有明确的网络结构且没有明确收集到其他个体收益的情况下,解决利他主义悖论。

    第二类研究是将复杂网络的特性引入到种群设计中,通过网络相关的测量指标筛选节点邻居并构建新网络。例如,通过网络中节点重要性和影响力评估来选出精英个体和淘汰最差个体;通过调整邻居密度来改进小生境演化算法;考虑节点的局部特征,在替换最差节点的同时通过连锁反应替换邻居节点来改进种群局部生态等[79]。此外,WHITACRE等[80]总结了常见的测量指标,并利用复杂网络的自组织特性,设计了一种具有自组织拓扑结构的演化算法(SOTEA),该算法是该研究方向的典型算法;KROMER等[81]引入无标度复杂网络中的优先连接特性来改进差分进化算法,并在基准测试集上取得不错效果;KU S ' MIERZ和TOYOIZUMI[82]基于无标度随机概率设计了一种新颖的随机搜索算法。这些研究成果表明,参考复杂网络特性比直接引入拓扑结构设计的搜索策略更具研究潜力。

    众包模式是基于网络的新型群智合作模式,众包成员往往承担不同的任务。FRANCISCO和WEI[83]研究了开源社区中人群贡献者合作所产生的对于新企业的经济影响,该研究发展了众包在下游产品市场竞争中的价值,使得外部贡献者可以熟悉功能、基本逻辑和沟通模式,从而使公司更容易锁定在下游产品市场中兴起的关键用户。

    在动态、开放的现实环境中,传统的孤岛式决策架构难以满足日益复杂的任务需求,需要以协同决策的组织方式系统性提升群智系统的有效性。近年来,群智协同决策方面的研究整体上朝着集中式决策—分布式决策—动态、开放环境决策的趋势发展。该领域的研究可大致分为全局优化与决策、协同演化与决策两部分。

    针对单目标优化问题,较多的演化算法研究关注如何利用群体的信息去指引群体搜索的方向。如:ZHAN等[84]提出了自适应粒子群算法(APSO),将群体演化状态分为探索、挖掘、收敛和跳出4个群体阶段,利用群体的状态信息,自适应调整演化算法的各项参数,使得算法在不同的搜索区域和演化状态调整到合适的参数控制。CHEN等[85]将寿命机制引入粒子群算法,挖掘出群体里具有潜力的精英个体,并赋予更多引导种群的机会;同时借助寿命机制,避免局部最优的个体持续性地引导群体在局部最优区域搜索。CHENG和JIN[34]、LIANG等[86]分别提出了竞争粒子群算法、综合学习粒子群算法,这2个算法摒弃了全局学习因子,引入了种群竞争机制和局部学习因子,利用更多群体的局部协作信息引导全局搜索,有利于保持群体的多样性,因此适用于多峰优化、大规模优化等存在多个局部最优的环境。

    在多目标优化领域,由于多个目标之间存在着冲突和矛盾,研究者关注如何协同和平衡多个冲突目标的关系。基于分解的多目标算法(MOEA/D)[25]是经典的多目标算法之一,其基本思想是用切比雪夫分解法将多目标问题分解为多个不同权重下的单目标问题。该算法的协同思想体现在:具有相似权重的子问题所对应的优化信息具有共享和借鉴意义,即相似权重的子问题可以通过协作优化来提升算法对多目标问题的求解效能。另一种经典的基于支配的多目标算法(NSGA)[23-24]是用群体内部的支配关系实现个体之间的协作,候选解质量的评估不是单一的目标值,而是使用帕累托支配关系表示个体间的优劣,进而不断筛选出群体内具有更多非支配关系的优质个体,以推动整体种群往全局帕累托前沿逼进。

    在人类群体的决策过程中,信息量低的个体更容易受到社会的影响和操纵。跟随群体的个体如何影响集体决策一直是许多领域的研究热点。如:在政治学研究方面,MCCLAVE[87]发现政治教育课程可以影响公民的政治意识,从而引导青年公民积极有效参与政治生活。在管理科学研究方面,BAINBRIDGE[88]认为羊群效应是一个影响团队绩效的问题,一小群知情的个体就足以引导一大群无知的个体,但知情人士的数量是否有任何限制尚不清楚。JIANG等[89]提出了一种动态置信度模型,以降低群体中由于遮挡而只能获得较少信息量个体的状态不确定性。

    全局优化主要以集中式决策的思想指导群智优化算法设计。随着问题规模和数据量增加,研究者们结合去中心化的分布式思想,进一步研究可以与分布式框架融合的群体协作方法。其中代表性的是协同演化与决策、小生境策略和多种群策略。

    协同演化(Cooperative Coevolution,CC)基于分而治之的思想,将一个大规模、复杂优化问题解耦成多个小规模子问题,通过对子问题的协同求解来获得原始问题求解。由于子问题的求解具有相对独立性,在问题解耦时需尽量弱化子问题之间的关联性,同时保持子问题内部相对完整性[90]。针对问题解耦策略的研究已有较多结果。如:OMIDVAR等[91]引入差分的思想,量化待解问题元素间的关联性;CHEN等[92]利用随机采样和扰动的方式,实验性地分析元素间的关联性;YANG等[93]和SONG等[94]利用问题相关的启发式信息,对问题元素随机动态分组。协同演化对子问题求解时,往往需要联合其他相关子问题中的优化信息来综合评估当前的子问题优化状态。在对多个子问题求解时,可以协同群体的全局信息,采用分治思想并融合分布式框架,从而提高问题求解的可扩展性。JIA等[33]将协同演化和分布式计算相结合,提出资源自适应分配的分布式协同演化框架,表明协同演化具有进行分布式决策的潜力。

    协同演化是在目标函数层面对问题的分解,与之相反,小生境策略是在决策层面对群体的分割。小生境策略是充分利用群体智能的局部信息,通过不同个体间的协作,淘汰掉群体内的相似个体,或将群体扩散到更多的不同区域,从而持续维持群体内部的多样性。小生境策略可提高群智算法在多个不同局部区域内探索的深度,适合处理多峰、多模态优化问题。LI等[95]将经典的小生境策略概括为适应值共享(fitness sharing)策略和排挤(crowding)策略。适应值共享策略的基本思想是主动削弱拥挤在同一局部空间的个体目标值,个体之间越靠近,则其目标值被削弱得越多,这样的机制会排斥个体拥挤在相似的局部区域探索,鼓励更多的个体保持距离和多样性,探索更多不同的搜索空间。排挤策略的基本思想是评估不同个体之间的差异性(如海明距离),利用算法中产生的新个体来排挤老种群中随机选择的个体,从而保持群体的多样性。类似地,基于多种群的群智算法[96]将种群分割为若干个子种群,各个子种群之间通过移民算子进行联系,实现多种群的协同进化,因此最优解的获取是多个种群协同进化的综合结果。

    随着协同演化机制的进一步发展,协同决策也进一步扩展到目标协同、数据协同等领域。例如,WEI等[97]针对计算代价昂贵的多约束优化问题,提出了对目标函数和多个约束条件分别协同进化的新机制,使进化算法在求解多约束优化问题时,能够按照进化过程的实际需要异步自适应地选择合适的约束或优化目标来促进群体进化,实现了不同目标或约束的协同进化,有效地提高了优化效率;GUO等[98]考虑了分布式数据驱动的进化演化方法,构建了边云计算的数据驱动协同演化计算新框架,使算法在数据基于物联网分布式采集的情况下,仍可分布式地训练代理模型并驱动进化计算的演化优化。

    协同演化在人类群体决策中也起到重要作用。在团体工作中,往往需要通过每个成员带来的不同知识和观点来得到更好的决策,团队需要充分利用他们的多样性。ASKAY等[99]描述了一种基于蜜蜂群体决策过程的新型协同智能技术蜂群人工智能(Swarm AI),使得人类群体更有效地综合每个成员的意见。VENKATAGIRI等[100]提出了一种专家的深层次知识、经验与群体的速度、规模相结合的方法,重点讨论了由专业记者和人权调查人员完成的图像地理定位这一复杂的感官任务。GUNASEKARAN等[101]认为任何一个有限理性的主体意识到自己的局限性时都会依赖于他们的同龄人,从而共同达到比孤立个体更高的理性程度,这些集体认知能力和协调能力使他们能够在相互依赖的环境中正确地进行决策。

    群智演化协同计算受益于群体之间的信息交流、环境选择等因素,在解决传统优化算法难以解决的非线性、非凸性、不连续性、不可微性和无梯度信息的优化问题,特别是离散组合优化问题上有天然的优势。群智演化协同计算经过不断改进和完善,已经广泛运用于社会生活和工业生产的多个领域,包括物流调度[102]、社区划分[103]、社交平台监管[104]、机器学习[105]、金融计算[106]和电子电力系统[107]等领域。

    物流调度是供应链管理中的基础问题,包括了仓库选址、车辆路由问题等典型物流调度问题。车辆路由问题[102]是最典型的物流调度问题,需要规划车辆的行进路线,在满足顾客需求等约束条件下使得车辆开销最小。车辆路由问题可以看成是旅行商问题的一个变体。近年随着经济快速发展,由于各种实际情况的限制,车辆路由问题出现了很多变体[108],包括周期车辆路由问题、多仓库车辆路由问题、时间限制车辆路由问题、容量限制车辆路由问题和有时间窗的车辆路由问题等。群智演化协同计算将每一种路由方案作为一个群体的个体,在解决车辆路由问题,特别是解决多仓库的车辆路由问题上有显著优势,个体可以直接通过交叉变异等演化操作实现协同演化。学者们改进了遗传算法[109]、粒子群优化算法[110]等,并用于解决物流调度问题。如:TOFIGHI等[111]将差分进化算法应用于不确定性的人道主义物流调度网络设计,在第一阶段确定包括供求信息和震后运输网络路线可用性水平在内的不确定因素,在第二阶段制定救灾分配计划,与此同时还考虑了最小化总配送时间、关键物资的最大加权配送时间、未使用库存的总成本和为满足需求的加权短缺成本4个目标的平衡,成功将群智协同计算应用于德黑兰救灾网络的实际设计中。随着经济全球化和电商平台的高速发展,我国的物流系统中存在着许多物流调度问题,群智演化协同计算不仅能用于求解物流调度问题,还有望在共享汽车路由、底层的人工配送分工等具有不确定性的场景进行应用。

    现今社会里的实体之间的相互连接关系可以看成是一个网络,而社会实体可以基于智能体进行建模。如:JIANG和JIANG[112]将智能体建模和演化博弈方法应用于社区网络分析挖掘中,网络中不同的实体群可以形成多个社区,社区内的网络节点密集联系,社区之间的节点稀疏关联。现实生活和工业界中普遍存在社区结构,例如交通网络、生物联系和网络社区等。社区划分问题是根据不同的社区特征,将大社区针对性地划分为不同的小社区。近年来,群智演化协同计算在社区划分领域做出了许多贡献。群智演化协同算法需要根据社区特征对种群的编码方式和变异操作进行针对性的改进,以解决社区划分问题。文献[113, 103]中综述了演化计算在包括重叠社区划分、动态网络和多层网络等不同类型的网络结构中进行社区划分的群智演化协同优化算法。其中,基于最大团图的多目标优化算法(MCMOEA)[114]是一个群智演化协同计算解决社区划分问题的经典方法,该算法使用一种基于团的种群编码表示方式,能够检测到重叠网络中的最大团,并将最大团转化为结点, 从而简化网络并提出针对基于团的表示下种群的交叉和变异操作,使用MOEA/D算法进行多目标优化。

    群智协同与社交平台中内容监管与治理的结合十分紧密,社交平台采用人工调节的方式,配合使用人工智能方法来调整用户发布的内容。其中,内容删除作为在线社区一种常见的监管方式,不仅可以使用户免受不良内容的侵扰,也会对被删除内容作者的行为产生一定的警告和修正作用。一项针对ChangeMyView在线社区生成内容和用户行为演化的研究[104]发现,通过设置删除内容的操作,不仅会减少社区内不合规范的内容,也会诱发更多良性的用户交流行为。基于人工的内容删除方式通常呈现2种形式:集中式方法和分布式方法[115]。在集中式方法中,社交平台雇佣外部工作者和部分较高影响力的用户组成小组团队,以协同工作的方式来浏览网站中的公开内容,并清除其中不规范的信息。在分布式方法中,社交平台的用户通过投票机制对网站中内容的质量进行控制,即由多个用户对同一个内容进行分类处理,以多数人选择的结果为其类别标签,此后由社交网站采取数据的清理行动。

    随着深度学习的发展,社交平台的监管方式也发生了变化。越来越多的社交平台将群智模式与计算机软件技术结合起来,由此演化出了多种多样的应用,并在实践中产生了良好的效果。Crossmod是一个部署在Reddit上的新型社会技术监管系统,系统开发者通过与跨社区的人工监管者进行访谈,实时了解当前自动化监管工具的局限性,从而及时地在系统中扩展所需功能[116]。在Wikipedia中,人们开发各种漫游机器人[117],使其执行诸如监管网站内容、合并相似知识条目、拆分复杂工作以及关闭故障之类的任务[118]。随着时间的推移,这些漫游机器人还可以获取新功能,在知识编辑的过程中扮演着越来越重要的角色。ZHENG等[119]的研究表明,机器人行为在编辑过程中呈现变化的趋势,包括其进行编辑的频率、需要的工作空间和所涉及的软件开发等。特别值得注意的是,漫游机器人的存在会对新注册用户的行为产生影响。例如,用于质量控制的漫游机器人(如防破坏机器人)在无意中会降低社交网络中新注册用户的留存率,而由HostBot邀请新注册的用户进入社区门户网站(Wikipedia Tea House)将提高其保留率。

    流程调度与优化是工业生产中常见的组合优化问题[120],群智演化协同计算是流程调度与优化问题的主要解决方法。BRANKE等[121]在综述生产调度的自动化设计时提到了许多群智演化协同算法。此外,随着云计算的发展,研究群智演化协同计算来解决云平台上的流程调度问题的热度越来越高[122]。如:ZHU等[123]为了解决多目标云调度问题,同时优化最大完工时间和最小化代价,在NSGA-Ⅱ、SPEA2和MOEA/D算法基础上提出了新的个体编码方式、遗传操作、评估函数和种群初始化机制。CHEN等[124]提出了采用具有双种群的双目标蚁群优化算法来解决云调度问题,将双种群的各自目标作为启发式信息;采用精英策略将优势个体存储于缓存种群中,以获得最终的全局帕累托前沿;根据种群个体与缓存个体的非支配关系提出了新的信息素更新策略,以指导种群中不同的个体协同演化。FARD等[125]将SPEA2算法和NSGA-II算法运用于多个云平台上的工作流调度。针对存在机器故障的块批量流处理的流程调度问题,HAN等[126]提出了多目标演化调度算法,算法中引入单目标启发策略来初始化种群,并提出2个新的交叉策略和局部重调度策略来消除机器故障影响。

    机器学习旨在研究机器如何模拟或实现人类的学习行为,是近年来人工智能领域的一大研究热点。群智演化协同计算已经成功应用于关联关系挖掘[127]、特征选择[105]、聚类[128]和神经网络训练[129]等机器学习任务中。其中,关联关系挖掘用于寻找大数据集的项目之间的紧密关联关系,已经被成功应用于医学、经济市场分析和推荐系统等多个领域[127]。特征选择是数据挖掘和机器学习中的一个重要任务,广泛存在于图像信号处理、生物医学任务、业务财务问题、网络垃圾邮件检测和电力系统优化等领域,用于降低数据的维度、提高算法性能。特征选择的挑战在于需要在巨大的搜索空间中确定一些特定的类集合,进而根据对象之间的相似性来描述数据库中的对象[105]。聚类被广泛应用于图像处理、生物信息学、计算金融学和径向基函数(RBF)神经网络设计[128]。神经网络的设计与训练是深度学习应用于实际问题解决时最关键、最耗时的任务。群智演化算法在机器学习任务中的应用,不仅解决了传统优化方法的条件限制,而且种群个体之间通过交叉等操作协同演化,使得结果更精确。群智演化协同计算在机器学习领域的应用推动了机器学习算法的多元发展。近年来,机器学习算法也与群智演化协同计算相结合,以提高解决黑箱高昂优化问题、数据驱动优化问题的能力[36]。例如,SUN等[130]将随机森林与群智演化协同计算相结合,用于优化卷积神经网络,极大地提高了卷积神经网络的训练精度并减少了训练时间。

    信息化和移动互联的普及使得城市公共安全对整个社会的影响更为广泛和迅速。城市安全问题涉及到安全破坏者(即违法分子)和安全保护者(即警察)两方博弈实体,安全演化博弈与协同是解决城市安全问题的主要方法之一。如:TSAI等[131]利用斯塔克伯格博弈(Stackelberg-game)模型,建立违法分子和警察决策模型,通过计算纳什均衡解(Nash Equlibirum)最大化城市安全保护。BROWN等[132]将违法分子建模为完全理性实体(即他们只攻击没有警察保护的区域),为了在有限警察资源限制下尽可能全天候地覆盖整个城市区域,提出了基于马尔科夫决策过程(Markov Decision Process, MDP)的警察巡逻模型,可以有效缓解城市时空安全隐患。此外,意识到警察巡逻的局部时效性(即在某个时刻、区域的巡逻对相邻时刻和区域同样有保护效果),ROSENFELD和KRAUS[133]提出了基于线性规划(Linear Programming, LP)的警察巡逻方法,以进一步提高城市安全指数。考虑到违法分子行为的动态性,ZHANG等[134]提出演化安全博弈模型,通过城市监控基础设施实时观测违法分子的位置信息,动态调整保护策略。针对多对一安全保护场景(即多个警察同时保护整个城市区域),ZHANG和AN[135]在满足群体成员通信可靠的前提下,运用团队最大最小均衡解(Team Maxmin Equilibria, TMEs)最大化城市保护成功率。

    众包应用的自主性和开发性使得群智贡献者可以根据自身技能,策略性地执行群智任务,并且以最大化自身收益为最终目标。演化博弈通过与贡献者迭代交互的方式,可以激励贡献者客观真实地完成任务,提高众包任务完成质量。针对贡献者技能、成本等信息确定场景,ZHANG等[136]提出一种基于斯塔克伯格博弈(Stackelberg-game)模型的按劳收益分配准则:每个贡献者获得的收益与其技能贡献率正相关,从而激励贡献者最大程度地贡献其技能资源。针对贡献者技能不确定场景,HU等[137]提出基于强化学习的演化机制:每一次迭代演化,通过贡献者任务完成情况来评估任务质量;根据上一轮迭代的评估结果,在下一轮迭代中, 通过强化学习设置报酬,引导贡献者执行任务的行为。信誉机制可以用来有效刻画贡献者的历史行为演化,当工作者高质量地完成任务时,该信誉值会相应增加。通过将贡献者分配到的任务数与其信誉值进行正向关联,能够激励工作者提供高质量的任务执行结果[138]。理论分析表明,当贡献者只存在2种任务完成策略(高质量、低质量任务完成策略)时, 采用合适的信誉设置机制和任务分配机制,贡献者最终都倾向于采取高质量任务完成策略[139]。XIAO等[140]利用信誉值推测贡献者的历史任务完成质量,进而将任务分配给合适的贡献者,从而进一步提高了任务完成质量。

    除此以外,群智演化协同计算方法还在经济金融[141]、电子电力系统[107]、航天航空[142]、生物医疗[143]和多人在线游戏[144]等领域得到了成功应用。

    随着互联网、物联网和边云计算等技术的发展,人、机、物高度融合,为群智演化协同计算的发展创造了重要的机遇,使其拥有广阔的应用前景和发展空间,同时也对群智演化协同计算的理论体系建立提出了新挑战。我们认为,群智演化协同计算将呈现如下的发展趋势:

    (1) 构建统一群智演化协同计算理论体系。在现有的主要群智演化与协同计算模型中,群智的涌现与演化理论主要针对具体的群智系统、具体的群智应用来构造和刻画的,尚缺乏对群体智能系统的智能涌现行为进行刻画的统一的数学理论模型。给定某类任务、某类以特定规则进行通信与协作的群体,如何构造对群智系统的演化过程和任务执行结果进行预测和分析的通用模型,如何设计调控干预群智系统的组织结构和激励机制来促进任务执行的统一方法,仍是亟需解决的关键问题。

    (2) 以跨领域研究促进群智演化协同计算的模型与方法创新。现有的群智演化协同计算研究主要从单一的角度展开,或聚焦于生物启发的群体智能系统,或聚焦于多智能体系统,或聚焦于面向互联网的社会计算系统。这些模型和方法各有优势,但缺乏联系。随着群智演化协同计算理论的发展,综合多个视觉开展群智协同演化模型和方法的研究,将有助于取长补短。例如可借鉴生物启发的群智系统的涌现演化理论来完善社会群智系统的涌现演化理论,或结合互联网群智平台来拓展生物启发的群智系统在动态、开放环境中的协同决策能力,从而促进群智协同演化计算的模型和方法创新。

    (3) 发展动态、开放环境中的可持续、可扩展群智协同决策方法。随着网络技术的快速发展,尤其是区块链、共享经济等技术的不断成熟,群智平台将会在更动态、开放的环境中运行。由于组成群智系统的群智资源,以及需要群智系统求解的任务都是动态持续变化的,这对群智决策在动态、开放环境中的可持续性和可扩展性都提出新的挑战。

    (4) 完善群智演化与协同计算的隐私保护和安全保障机制。群智计算的核心是贡献与协作,因此,在开放、复杂的互联网环境下,群智系统难免会受到恶意攻击,同时也面临着复杂的隐私保护等问题。目前,已有一些学者开始探索群智演化与协同计算的隐私保护和安全保障机制[132]。如何构建更完善的群智安全理论体系,实现动态、开放环境下安全、可靠的群智演化与协同计算,仍是值得关注的重要课题。

    (5) 打造新型的群智演化协同计算公共平台。在互联网技术和新一代人工智能技术急速发展的浪潮下,亟需面向科学研究、工业制造、交通物流、经济金融和软件开发等领域,打造群智演化协同计算公共平台,发展新型的群智协同平台与应用模式,推动群智演化与协同计算研究成果的应用转化,助力相关产业的升级和变革。

    群体智能通过聚集群体智慧协同求解大规模复杂问题,已经广泛运用于社会生活和工业生产的多个领域。其核心是利用群体间的协同与合作,涌现出智能行为和机理。从技术路线上看,群智演化协同计算融合了演化计算、群集智能、多智能体系统和社会计算等多领域科学,包含了对生物群体、社会群体等不同角度的群体行为研究,是当前学术研究的热点。本文从生物群体、智能体群体和人类社会群体等不同视角,从群智演化协作的模型和机理、群智演化协作的组织结构、群智演化协同决策及群智演化协同计算的应用等角度分析了国内外相关研究现状,并进行了对比。我们认为尽管目前国外的多数主流群智演化协同计算模型、算法研究处于领跑地位,但近年来我国高度重视并投入群智相关理论、技术的研究,因此国内在群智演化协同计算方向有望占领国际学术前沿,在群智理论体系建构、模型与方法创新、可持续可扩展协同决策、隐私保护与安全保障机制以及群智演化协同计算公共平台搭建等领域取得突破。

  • 图  1   通道注意力模块示意图[28]

    Figure  1.   The diagram of the channel attention module[28]

    图  2   自适应选取运动尺度模块实现原理图

    Figure  2.   The implementation schematic diagram of the adaptive motion scale selection module

    图  3   融合时间域和空间域的注意力模块图

    Figure  3.   The diagram of attention module integrating temporal and spatial domain

    图  4   AE-MCN网络结构图

    Figure  4.   The network structure diagram of AE-MCN

    表  1   不同自适应选取运动尺度模块在NTU60数据集上的性能

    Table  1   The performance of different adaptive selection of motion scale modules on NTU60 dataset

    网络 识别准确率/%
    CS基准 CV基准
    baseline 84.5 91.0
    AE-MCN-A 81.8 86.8
    AE-MCN-B 83.7 89.5
    AE-MCN-C 84.9 91.3
    下载: 导出CSV

    表  2   不同组合方式的时间和空间注意力模块在NTU60数据集上的性能

    Table  2   The performance of temporal and spatial attention mo-dule with different combinations on NTU60 dataset

    网络 识别准确率/%
    CS CV
    AE-MCN-C 84.9 91.3
    AE-MCN-C+TAM 85.1 91.6
    AE-MCN-C+SAM 85.3 92.2
    AE-MCN-C+TAM+SAM(Serial) 85.5 91.7
    AE-MCN-C+TAM+SAM(Parallel) 85.9 91.8
    AE-MCN-C+SAM+TAM(Serial) 86.3 92.4
    下载: 导出CSV

    表  3   不同网络在NTU60数据集上的性能比较

    Table  3   The performance comparison of different networks on NTU60 dataset

    网络 识别准确率/%
    CS基准 CV基准
    VA-LSTM[37] 79.2 87.7
    ElAtt-GRU[38] 80.7 88.4
    ST-GCN[12] 81.5 88.3
    DPRL+GCNN[39] 83.5 89.8
    SR-TSL[17] 84.8 92.4
    PR-GCN[13] 85.2 91.7
    AE-MCN 86.3 92.4
    下载: 导出CSV

    表  4   不同网络在JHMDB数据集上的性能比较

    Table  4   The performance comparison of different networks on JHMDB dataset

    网络 识别准确率/%
    Chained Net[40] 56.8
    EHPI[18] 65.5
    PoTion[41] 67.9
    DD-Net[21] 81.6
    AE-MCN 83.5
    下载: 导出CSV

    表  5   不同网络在UT-Kinect数据集上的性能比较

    Table  5   The performance comparison of different networks on UT-Kinect dataset

    网络 识别准确率/%
    FusingFeatures[42] 87.9
    ElasticCoding[43] 94.9
    GeoFeat[22] 95.9
    GFT[44] 96.0
    AE-MCN 97.9
    下载: 导出CSV
  • [1]

    BACCOUCHE M, MAMALET F, WOLF C, et al. Sequential deep learning for human action recognition[C]//International Workshop on Human Behavior Understanding. Berlin: Springer, 2011: 29-39.

    [2]

    FEICHTENHOFER C, PINZ A, ZISSERMAN A. Convolutional two-stream network fusion for video action recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 1933-1941.

    [3]

    SUN L, JIA K, YEUNG D Y, et al. Human action recognition using factorized spatio-temporal convolutional networks[C]//Proceedings of the IEEE International Conference on Computer Vision. Santiago: IEEE Computer Society, 2015: 4597-4605.

    [4]

    LIU Z, ZHANG C, TIAN Y. 3D-based deep convolutional neural network for action recognition with depth sequences[J]. Image and Vision Computing, 2016, 55: 93-100. doi: 10.1016/j.imavis.2016.04.004

    [5]

    KIM T S, REITER A. Interpretable 3D human action ana-lysis with temporal convolutional networks[C]//Procee-dings of the IEEE Conference on Computer Vision and Pa-ttern Recognition Workshops. Honolulu: IEEE, 2017: 1623-1631.

    [6]

    MOON G, CHANG J Y, LEE K M. Posefix: Model-agnostic general human pose refinement network[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 7773-7781.

    [7]

    CAO Z, HIDALGO G, SIMON T, et al. OpenPose: realtime multi-person 2D pose estimation using part affinity fields[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 43(1): 172-186.

    [8]

    CHEN Y L, WANG Z C, PENG Y X, et al. Cascaded pyramid network for multi-person pose estimation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 7103-7112.

    [9]

    CAO Z, SIMON T, WEI S E, et al. Realtime multi-person 2D pose estimation using part affinity fields[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 7291-7299.

    [10]

    GREFF K, SRIVASTAVA R K, KOUTNÍK J, et al. LSTM: a search space odyssey[J]. IEEE Transactions on Neural Networks and Learning Systems, 2016, 28(10): 2222-2232.

    [11]

    LEE I, KIM D, KANG S, et al. Ensemble deep learning for skeleton-based action recognition using temporal sliding LSTM networks[C]//Proceedings of the IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 1012-1020.

    [12]

    YAN S J, XIONG Y J, LIN D H. Spatial temporal graph convolutional networks for skeleton-based action recognition[C]//Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence. New Orleans, Louisiana: AAAI Press, 2018: 7444-7452.

    [13]

    LI S J, YI J H, FARHA Y A, et al. Pose refinement graph convolutional network for skeleton-based action recognition[J]. IEEE Robotics and Automation Letters, 2021, 6(2): 1028-1035. doi: 10.1109/LRA.2021.3056361

    [14] 刘芳, 乔建忠, 代钦, 等. 基于双流多关系GCNs的骨架动作识别方法[J]. 东北大学学报(自然科学版), 2021, 42(6): 768-774. https://www.cnki.com.cn/Article/CJFDTOTAL-DBDX202106002.htm

    LIU F, QIAO J Z, DAI Q, et al. Skeleton-based action recognition method with two-stream multi-relational GCNs[J]. Journal of Northeastern University(Natural Science), 2021, 42(6): 768-774. https://www.cnki.com.cn/Article/CJFDTOTAL-DBDX202106002.htm

    [15] 兰红, 何璠, 张蒲芬. 基于增强型图卷积的骨架识别模型[J/OL]. 计算机应用研究, 2021, 38(12): 3791-3795;3825.

    LAN H, HE F, ZHANG P F. Skeleton recognition model based on enhanced graph convolution[J]. Application Research of Computers, 2021, 38(12): 3791-3795;3825.

    [16]

    ZHANG P F, LAN C L, ZENG W J, et al. Semantics-Guided neural networks for efficient Skeleton-based human action recognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 1109-1118.

    [17]

    SI C Y, JING Y, WANG W, et al. Skeleton-based action recognition with hierarchical spatial reasoning and temporal stack learning network[J]. Pattern Recognition, 2020, 107: 107511/1-16. doi: 10.1016/j.patcog.2020.107511

    [18]

    LUDL D, GULDE T, CURIO C. Simple yet efficient real-time pose-based action recognition[C]//Proceedings of the IEEE Intelligent Transportation Systems Conference. Auckland: IEEE, 2019: 581-588.

    [19]

    PAVLLO D, FEICHTENHOFER C, GRANGIER D, et al. 3D human pose estimation in video with temporal convolutions and semi-supervised training[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 7753-7762.

    [20]

    LI C, ZHONG Q Y, XIE D, et al. Co-occurrence feature learning from Skeleton data for action recognition and detection with hierarchical aggregation[C]//Proceedings of the Twenty-Seventh International Joint Conference on Artificial Intelligence. New Orleans: AAAI Press, 2018: 786-792.

    [21]

    YANG F, WU Y, SAKTI S, et al. Make skeleton-based action recognition model smaller, faster and better[C]//Proceedings of the ACM Multimedia Asia. New York: ACM, 2019: 1-6.

    [22]

    JIE H, LI S, GANG S, et al. Squeeze-and-excitation networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(8): 2011-2023. doi: 10.1109/TPAMI.2019.2913372

    [23]

    HEIDARI N, IOSIFIDIS A. Temporal attention-augmented graph convolutional network for efficient skeleton-based human action recognition[C]//Proceedings of the 25th International Conference on Pattern Recognition. Milan: IEEE, 2021: 7907-7914.

    [24]

    FAN Y B, WENG S C, ZHANG Y, et al. Context-aware cross-attention for skeleton-based human action recognition[J]. IEEE Access, 2020, 8: 15280-15290. doi: 10.1109/ACCESS.2020.2968054

    [25]

    SI C Y, CHEN W T, WANG W, et al. An attention enhanced graph convolutional LSTM network for skeleton-based action recognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 1227-1236.

    [26]

    ZHANG S, LIU X, XIAO J. On geometric features for skeleton-based action recognition using multilayer LSTM networks[C]//Proceedings of the IEEE Winter Confe-rence on Applications of Computer Vision. Santa Rosa: IEEE, 2017: 148-157.

    [27]

    ZHANG S, YANG Y, XIAO J, et al. Fusing geometric features for skeleton-based action recognition using multilayer LSTM networks[J]. IEEE Transactions on Multimedia, 2018, 20(9): 2330-2343. doi: 10.1109/TMM.2018.2802648

    [28]

    WANG H, WANG L. Modeling temporal dynamics and spatial configurations of actions using two-stream recurrent neural networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 499-508.

    [29]

    SONG S, LAN C, XING J, et al. An end-to-end spatio-temporal attention model for human action recognition from skeleton data[C]//Proceedings of the AAAI Confe-rence on Artificial Intelligence. San Francisco: AAAI, 2017: 4263-4270.

    [30]

    HOU J, WANG G, CHEN X, et al. Spatial-temporal attention res-TCN for skeleton-based dynamic hand gesture recognition[C]//Proceedings of the European Conference on Computer Vision (ECCV) Workshops. Berlin: Springer, 2018: 273-286.

    [31]

    SHAHROUDY A, LIU J, NG T T, et al. Ntu rgb+ d: A large scale dataset for 3d human activity analysis[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Lasvegas: IEEE, 2016: 1010-1019.

    [32]

    JHUANG H, GALL J, ZUFFI S, et al. Towards understanding action recognition[C]//Proceedings of the IEEE International Conference on Computer Vision. Sydney: IEEE, 2013: 3192-3199.

    [33]

    XIA L, CHEN C C, AGGARWAL J K. View invariant human action recognition using histograms of 3d joints[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops. Providence: IEEE, 2012: 20-27.

    [34]

    PASZKE A, GROSS S, CHINTALA S, et al. Automatic differentiation in Pytorch[J/OL]. NIPS-W 2017 Workshop Autodiff Submission, (2017-10-29)[2022-03-20]. https://openreview.net/forum?id=BJJsrmfCZ&noteId=rkK3fzZJz.

    [35]

    KINGMA D, BA J. Adam: A method for stochastic optimization[J]. Computer Science, 2015, 5: 7-9.

    [36]

    HE T, ZHANG Z, ZHANG H, et al. Bag of tricks for image classification with convolutional neural networks[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 558-567.

    [37]

    ZHANG P F, LAN C L, XING J L, et al. View adaptive recurrent neural networks for high performance human action recognition from skeleton data[C]//Proceedings of the IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 2136-2145.

    [38]

    ZHANG P F, XUE J R, LAN C L, et al. Adding attentiveness to the neurons in recurrent neural networks[C]//Proceedings of the 15th Computer Vision-ECCV European Conference. Berlin: Springer, 2018: 136-152.

    [39]

    TANG Y S, TIAN Y, JIWEN L. et al. Deep progressive reinforcement learning for skeleton-based action recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 5323-5332.

    [40]

    ZOLFAGHARI M, OLIVEIRA G L, SEDAGHAT N, et al. Chained multi-stream networks exploiting pose, motion, and appearance for action classification and detection[C]//Proceedings of the IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 2904-2913.

    [41]

    CHOUTAS V, WEINZAEPFEL P, REVAUD J, et al. Potion: Pose motion representation for action recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 7024-7033.

    [42]

    ZHU Y, CHEN W, GUO G. Fusing spatiotemporal features and joints for 3D action recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. Portland: IEEE, 2013: 486-491.

    [43]

    ANIRUDH R, TURAGA P, SU J, et al. Elastic functional coding of human actions: from vector-fields to latent variables[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 3147-3155.

    [44]

    KAO J Y, ORTEGA A, TIAN D, et al. Graph based skeleton modeling for human activity analysis[C]//Procee-dings of the IEEE International Conference on Image Processing. Taipei: IEEE, 2019: 2025-2029.

  • 期刊类型引用(2)

    1. 熊文文, 陈俊芳, 王燕, 王勇. 工作气压对氩射频电感耦合等离子体模式转换的影响. 华南师范大学学报(自然科学版). 2019(01): 16-21 . 百度学术
    2. 张金禾, 周严东, 刘汝兵, 林麒. 低压汞灯等离子体电子密度分布光谱诊断研究. 机电技术. 2015(06): 88-91 . 百度学术

    其他类型引用(1)

图(4)  /  表(5)
计量
  • 文章访问数:  93
  • HTML全文浏览量:  11
  • PDF下载量:  25
  • 被引次数: 3
出版历程
  • 收稿日期:  2021-09-11
  • 网络出版日期:  2023-08-25
  • 刊出日期:  2023-06-24

目录

/

返回文章
返回