加权基因共表达网络分析筛选胰腺癌肿瘤免疫相关基因

李慧月, 王沐榛, 喻叶, 田雪梅

李慧月, 王沐榛, 喻叶, 田雪梅. 加权基因共表达网络分析筛选胰腺癌肿瘤免疫相关基因[J]. 华南师范大学学报(自然科学版), 2021, 53(6): 61-67. DOI: 10.6054/j.jscnun.2021093
引用本文: 李慧月, 王沐榛, 喻叶, 田雪梅. 加权基因共表达网络分析筛选胰腺癌肿瘤免疫相关基因[J]. 华南师范大学学报(自然科学版), 2021, 53(6): 61-67. DOI: 10.6054/j.jscnun.2021093
LI Huiyue, WANG Muzhen, YU Ye, TIAN Xuemei. Screening Genes Related with Tumor Immunity in Pancreatic Cancer with the WGCN Analysis[J]. Journal of South China Normal University (Natural Science Edition), 2021, 53(6): 61-67. DOI: 10.6054/j.jscnun.2021093
Citation: LI Huiyue, WANG Muzhen, YU Ye, TIAN Xuemei. Screening Genes Related with Tumor Immunity in Pancreatic Cancer with the WGCN Analysis[J]. Journal of South China Normal University (Natural Science Edition), 2021, 53(6): 61-67. DOI: 10.6054/j.jscnun.2021093

加权基因共表达网络分析筛选胰腺癌肿瘤免疫相关基因

基金项目: 

国家自然科学基金项目 81772533

详细信息
    通讯作者:

    田雪梅,Email: xmtian69@163.com

  • 中图分类号: R735.9

Screening Genes Related with Tumor Immunity in Pancreatic Cancer with the WGCN Analysis

  • 摘要: 分析胰腺癌免疫浸润,以期寻找胰腺癌免疫治疗的潜在靶点. 利用加权基因共同表达网络分析方法和CIBERSORT算法分析TCGA数据库中胰腺癌的基因表达数据,识别与B细胞免疫浸润水平相关的基因模块. 通过共表达网络和PPI交互网络分析,确定了9个枢纽基因CD79BMYCBANK1TIMELESSCD19ATF3ITGALIKZF3RRAGB. 通过TIMER、Kaplan-Meier和差异表达基因等分析, 结果显示ITGAL在B细胞中高表达,在胰腺癌组织中显著上调,且该基因在胰腺癌中高表达与预后良好显著相关.
    Abstract: The immune infiltrating cells of pancreatic cancer are analyzed to find immunotherapy targets for pancreatic cancer. The weighted gene co-expression network (WGCN) analysis and the CIBERSORT algorithm were used to analyze the gene expression data of pancreatic cancer in the TCGA database to identify the gene modules related to the level of B cell immune infiltration. Nine hub genes (CD79B, MYC, BANK1, TIMELESS, CD19, ATF3, ITGAL, IKZF3 and RRAGB) were identified with the co-expression network and the PPI interaction network analysis. The Timer, Kaplan-Meier and differentially expressed gene analyses showed that ITGAL was highly expressed in B cells and significantly upregulated in pancreatic cancer tissues, and the high expression of ITGAL in pancreatic cancer was significantly correlated with good prognosis.
  • 传统的投资组合绩效评价均采用方差度量风险[1],如夏普指数、特雷诺指数和詹森指数.但随着方差的广泛运用,学者们发现方差并不是一个良好的测量风险的方式,方差衡量的是随机变量与期望值之间的上下偏差,而投资者更关心下偏差[2].而风险价值(VaR)作为一种下偏差风险度量方法,在风险测量和绩效评价中得到了广泛的应用,如:VaR风险度量方法[3];在均值-方差模型基础上的均值-VaR模型[4-5];不允许卖空情况下的均值-方差模型与均值-VaR模型[6];具有基数约束、上下界限制和交易成本的多阶段均值-VaR模型[7].

    在投资组合模型的建构方面,一些学者考虑实际投资市场的诸多摩擦因素,构建了不同的模型并求解.如:研究了不同借贷利率下以VaR为风险度量方法的投资组合效用最大化模型[8];在其均值-方差投资组合选择中考虑借款约束[9].交易成本同样对投资组合影响颇大,BEST和HLOUSKOVA[10]提出了分段线性交易成本的投资组合模型.另外,学者们研究了具有基数约束(限制最优资产组合中所含资产的数量)的投资组合模型,使该模型更加符合实际市场上的投资情况.如:在其均值-方差动态投资组合和市场时机选择中考虑了基数约束这一要素[11];在研究一系列具有基数约束的投资组合选择问题时提出了一个新的混合整数二次约束的二次规划算法[12];研究了含区间系数的基数约束投资组合模型,并运用一种新的动态差分进化算法与自适应控制参数求解转换后的确定性模型[13].

    实际上,具有基数约束的投资组合模型是一个复杂的非光滑的混合整数规划问题,计算十分复杂,模型真实前沿面的解析解难以得到.因此,许多学者运用数据包络分析(Data Envelopment Analysis,DEA)法[14].如:运用传统的DEA效率评价模型优化投资组合选择[15];在基金市场上,对30只对冲基金在规模报酬不变的情况下进行了DEA效率估计排名[16];提出了多元一致性数据包络分析效率分析模型,在传统DEA模型的基础上考虑了投资组合的多样化[17];将改进的DEA交叉效率模型应用于韩国股票市场投资组合选择,得到了优于传统组合选择方法的结论[18];构建了多阶段的DEA效率估计模型,在股票市场上对10只风险证券进行了效率估计[19];比较了前沿面方法和传统评价体系比率在投资决策设计应用中的效果,得到了前沿面评价方法更注重持续性的结论[20];提出了一种多目标投资组合选择模型,并使用DEA模型进行了交叉效率评价[21].

    本文使用BCC-DEA绩效评价方法,对具有交易成本、上下界约束、借款约束和基数约束的均值-VaR模型进行绩效评价,通过上海证券市场的真实数据进行效率估计,构建不同样本数据下的DEA效率估计模型,并构建前沿面与真实前沿面进行对比,分析DEA模型对投资组合绩效评价的有效性.

    假设可供选择的风险资产有n种,第i种风险资产的收益率(随机变量)表示为Ri,其均值ri=E(Ri), 协方差矩阵G=(σij)n×nσij=Cov(Ri, Rj) (i, j=1, 2, …, n);xi (i=1, 2, …, n)表示第i种风险资产投资比例;xn+1=1-(x1+x2+…+xn)表示无风险资产投资比例;xn+10表示无风险资产投资比例下界限制,xn+1xn+10;记投资组合x=(x1, x2, …, xn, xn+1)Trbrl分别表示无风险资产的借款利率、贷款利率;rprN分别表示投资组合x的期望收益率、净收益率;Ci表示第i种风险资产的单位交易成本;r0表示投资者要求的最低期望收益率;uili分别表示xi的上界、下界;K为投资组合中风险资产投资比例为非负的个数.投资组合的期望收益率为rp=rTx,方差为σp2=xTGx,标准差为σp=xTGx, 其中,r=(r1, r2, …, rn)′, ri表示第i种资产的期望收益率.

    定义1  风险(VaR)是指在一定的置信度下,某一投资组合在未来特定时间内最大的可能损失.设投资组合的期望收益率为rp, 则

    P(rp<VaR)1c
    (1)

    为投资组合的VaR(VaR取正数),其中,c(1/2≤c≤1)为常数.

    式(1)表示投资组合的收益率超过-VaR的概率不低于c.假设其收益率服从正态分布N(rp, σp2),根据中心极限定理可以得到如下定理:

    定理1[6]  当投资组合中n种资产的收益率服从正态分布时,式(1)可转换为

    rpΦ1(c)σpVaR,
    (2)

    其中,Φ(·)是标准正态分布函数,Φ-1(c)是置信度为c的正态分布函数的下分位点.

    随机市场情况下, 由式(2)可得VaR风险表达式为Φ-1(c)σp-r Tx.

    假设第i种资产的交易成本函数C(xi)是投资比例的分段线性函数,且为凸函数(图 1),即

    图  1  分段线性凸交易成本函数
    Figure  1.  The piecewise linear convex transaction cost function
    C(xi)={k1xi(0xia),k2xi(k2k1)a(a<xi1,k2>k1>0).
    (3)

    借款约束是投资组合考虑的另一个重要因素.本文考虑了无风险资产借款,则投资组合x=(x1, x2, …, xn, xn+1)T的期望收益率可表达为

    rp=ni=1rixi+rn+1(1ni=1xi),
    (4)

    其中,

    rn+1={r1(1ni=1xi0),rb(1ni=1xi<0),

    rbrl.若1ni=1xi0, 表示存在无风险资产贷款;若1ni=1xi0, 表示存在无风险资产借款.

    此时投资组合x=(x1, x2, …, xn, xn+1)T的净收益率为

    rN=ni=1rixi+rn+1(1ni=1xi)C(xi).
    (5)

    假设K≥0,且为整数,zi={0, 1},则投资组合x=(x1, x2, …, xn, xn+1)T的基数约束为

    lizixiuizi(i=1,2,,n),z1+z2++znK.
    (6)

    投资组合模型的上下限约束为:lixiui (i=1, 2, …, n).

    在文献[22]的基础上,考虑交易成本、上下界约束、借款约束和基数约束等条件,提出以下3个模型.

    (1) 风险最小化的均值-VaR投资组合模型为:

    minΦ1(c)σprTxs.t{ni=1rixi+rn+1(1ni=1xi)ni=1C(xi)r0,1ni=1xix0n+1,lizixiuizi(zi=0,1,i=1,2,,n),ni=1zik,
    (7)

    其中,r0表示投资者预期给定收益率.模型共有4个约束条件:投资组合的净收益率不低于给定的期望值r0、无风险资产有借贷约束、第i种风险资产的投资比例有上下界约束和风险资产投资比例非负个数不能超过K.模型的经济意义是指在满足上述4个约束条件下,如何使投资组合风险(VaR)最小.

    (2) 收益最大化的均值-VaR投资组合模型为:

    maxni=1rixi+rn+1(1ni=1xi)ni=1C(xi)s.t.{Φ1(c)σprTxVAR0,1ni=1xix0n+1,lizixiuizi(zi=0,1,i=1,2,,n),ni=1zik,
    (8)

    其中,VaR0表示投资者预期给定的风险.模型共有4个约束条件:投资组合的风险不高于预期风险VaR0、无风险资产有借贷约束、第i种风险资产的投资比例有上下界约束和风险资产投资比例非负个数不能超过K.模型的经济意义是指在满足上述4个约束条件下,如何使投资组合收益(r)最大.

    (3) 效用最大化的均值-VaR投资组合模型为:

    max(1θ)[ni=1rixi+rn+1(1ni=1xi)ni=1C(xi)]θ[Φ1(c)σprTx]s.t.{1ni=1xix0n+1,lizixiuizi(zi=0,1,i=1,2,,n),ni=1zik,
    (9)

    其中,θ (0≤θ≤1)表示投资者风险偏好系数.当θ=1时,投资者完全厌恶风险.当θ=0时,投资者只关心收益,不管风险,此时,模型(9)可以转变为:

    maxni=1rixi+rn+1(1ni=1xi)ni=1C(xi)s.t.{1ni=1xix0n+1,lizixiuizi(zi=0,1,i=1,2,,n),ni=1zik,
    (10)

    模型(10)属于非光滑的混合整数规划问题,可以运用遗传算法[23]得到其最优解,从而得到该模型目标函数最大值(即r0max),也可得到VaR0max.

    为更好地评估投资组合的绩效表现,文献[24]提出了真实前沿面的概念,并基于真实前沿面定义了投资组合效率.本文根据模型(10)对应的真实前沿面来定义n只风险资产构成的投资组合效率(图 2). 图中曲线MNWn只风险资产构成的投资组合真实前沿面,Q是某一个投资组合.

    图  2  投资组合效率
    Figure  2.  The portfolio efficiency

    收益导向的投资组合效率(PEr)是指相同风险下投资组合实际期望收益率与理想期望收益率的比值;风险导向的投资组合效率(PEv)是指相同期望收益率下理想风险与投资组合实际风险的比值.投资组合Q的收益导向、风险导向的效率可以分别表示为:

    PEr=rqrw,PEv=VmVq.

    由于金融市场上的诸多摩擦因素,大规模投资组合难以计算,所以,当投资组合真实前沿面为凹函数时,本文利用DEA模型对决策单元进行投资组合绩效评价.

    LIU等[25]运用BCC-DEA模型进行投资组合绩效评价,并指出:若r=h(VaR)是投资组合的前沿面,则r′=h′m(VaR)是m个样本的投资组合的BCC-DEA模型的前沿面,当m→+∞时,hm(VaR)依概率收敛于h(VaR).另外,若投资组合的风险函数VaR(x)(x为投资组合比例)是凸函数,收益函数r(x)是凹函数且可行域Ω是凸集,则由模型(7)得到的投资组合的真实前沿面是凹函数,可以采用基于数据的BCC-DEA模型对决策单元进行绩效评价.随着决策单元数量的增加,其前沿面能较好地逼近真实的前沿面.

    假设有m个投资组合可供评价,其中第j个投资组合xj=(x1j, x2j, …, xnj, xn+1j)′,j=1, 2, …, m,初始投资组合x0=(x10, x20, …, xn0, xf0)′,第j个投资组合的收益率为

    rj=ni=1rixji+rn+1(1ni=1xji)ni=1C(xji),
    (11)

    j个投资组合的VaR值为

    VaR(xj)=Φ1(c)σp[rixji+rn+1(1xji)],
    (12)

    r0为预先给定的可能性收益率、VaR0为可能性VaR值.可使用以下3个BCC-DEA评价投资组合的有效性.

    (1) 风险导向下均值-VaR投资组合的BCC-DEA评价模型:

    minθs.t.{mj=1λjrjr0,mj=1λjVaRjθVaR0,mj=1λj=1,λj0(j=1,2,,m),
    (13)

    其中,λj表示第j种投资组合的比例,θ表示投资组合的效率值.

    (2) 收益导向下均值-VaR投资组合的BCC-DEA评价模型:

    maxθs.t.{mj=1λjrjθr0,mj=1λjVaRjVaR0,mj=1λj=1,λj0(j=1,2,,m).
    (14)

    (3) 效用最大化的均值-VaR投资组合的BCC-DEA评价模型:

    min(1s+/VaR0)(1+s/r0)s.t.{mj=1λjrjsr0,mj=1λjVaRj+s+VaR0,mj=1λj=1,λj0(j=1,2,,m),
    (15)

    其中,s+代表正偏差,s-代表负偏差.

    以上3个模型都是线性规划模型,可以运用线性规划的旋转算法[22]求解.

    本文选择上海A股市场表现较好的30只股票进行分析,股票代码分别为:S1(600000)、S2(600010)、S3(600016)、S4(600029)、S5(600030)、S6(600036)、S7(600048)、S8(600104)、S9(600109)、S10(600111)、S11(600518)、S12(600519)、S13(600637)、S14(600887)、S15(600893)、S16(601166)、S17(601186)、S18(601318)、S19(601336)、S20(601377)、S21(601390)、S22(601601)、S23(601668)、S24(601669)、S25(601688)、S26(601766)、S27(601800)、S28(601818)、S29(601985)、S30(601989).选择从2010年1月至2019年5月的周收益数据作为样本数据.

    鉴于股票市场的高波动性,金融市场上往往通过构造股票投资组合来分散投资风险,而其构成投资组合的股票之间的相关系数越低,分散效果越好.由30只股票中每一只的股票收益及其与其他29只股票的相关系数(表 1)可知:样本中仅3只股票(S5、S21、S25)的相关性系数大于0.5,呈现中度相关性;20只股票的相关性系数介于0.3~0.5之间,具有较弱的相关性;其余7只股票的相关性系数介于0~0.3之间,具有极弱的相关性,可视为不相关.由此可知,本文所选取的股票样本的总体相关性较弱,可以较好地达到分散风险的效果.

    表  1  股票收益率均值及其相关性
    Table  1.  The expected return of stock and its correlation
    股票代码 S1 S2 S3 S4 S5 S6 S7 S8 S9 S10
    收益率均值 0.002 53 0.002 70 0.002 93 0.002 64 0.001 71 0.001 64 0.002 71 0.002 32 0.002 54 0.004 37
    相关系数 0.259 42 0.418 26 0.259 31 0.424 06 0.507 93 0.250 49 0.431 61 0.324 97 0.489 24 0.403 57
    股票代码 S11 S12 S13 S14 S15 S16 S17 S18 S19 S20
    收益率均值 0.005 49 0.003 91 0.006 47 0.005 35 0.005 41 0.002 04 0.002 42 0.001 88 0.002 98 0.001 83
    相关系数 0.249 43 0.161 08 0.384 82 0.223 37 0.382 54 0.308 39 0.496 61 0.338 87 0.345 69 0.469 35
    股票代码 S21 S22 S23 S24 S25 S26 S27 S28 S29 S30
    收益率均值 0.003 11 0.002 04 0.002 71 0.003 11 0.002 24 0.003 92 0.004 15 0.001 83 0.001 53 0.002 97
    相关系数 0.524 21 0.334 95 0.396 09 0.438 01 0.510 86 0.390 27 0.431 78 0.331 44 0.033 17 0.406 50
    下载: 导出CSV 
    | 显示表格

    假设分段线性凸交易成本为

    C(xi)={0.001xi(0xi0.3),0.0015xi0.00015(0.3<xi1),

    其中,i=1, …, 30,下界限制li=-0.5,上界限制ui=0.5 (i=1, …, 30),无风险资产借款利率rb=0.000 9,贷款利率rl=0.000 4,无风险资产投资比例下限xn+10=-0.5,风险资产投资比例非负的个数不超过6,置信度c=95%.根据实际约束生成上述30只股票的非等比例投资组合.

    本文考虑无风险资产借贷利率不同的情况下,根据模型(10)得到目标函数最大值,即r0max=0.006 6和VaR0max=0.09;当资产全部投资于无风险资产时,VaR0min=0,此时r0min=0.000 4.

    当VaR0在区间[0, 0.09]之间变动时,投资组合的真实前沿面如图 3所示.

    图  3  投资组合真实前沿面
    Figure  3.  The real frontier of portfolio

    当VaR0在区间[0, 0.089]之间等距离变动时,净收益率变动情况见表 2.

    表  2  投资组合的净收益率(VaR0∈[0, 0.089])
    Table  2.  The portfolio return when VaR0 ∈[0, 0.089]
    VaR0 0 0.003 0.006 0.009 0.012 0.015 0.018 0.021 0.024 0.027 0.030
    净收益率 0.000 40 0.000 66 0.000 93 0.001 19 0.001 44 0.001 69 0.001 94 0.002 19 0.002 43 0.002 67 0.002 91
    VaR0 0.033 0.036 0.039 0.042 0.045 0.048 0.051 0.054 0.057 0.060 0.063
    净收益率 0.003 15 0.003 39 0.003 63 0.003 86 0.004 09 0.004 32 0.004 54 0.004 76 0.004 98 0.005 18 0.005 38
    VaR0 0.066 0.069 0.072 0.075 0.078 0.081 0.084 0.087 0.089
    净收益率 0.005 57 0.005 75 0.005 92 0.006 07 0.006 21 0.006 33 0.006 43 0.006 51 0.006 55
    下载: 导出CSV 
    | 显示表格

    由于交易成本、借款约束、上下界约束和基数约束等摩擦因素符合模型(9)的约束条件,所以,本文构造样本数据量m分别为100、200、500、1 000、2 000、4 000的随机投资组合,并将此投资组合的样本数据量代入收益导向的BCC-DEA模型(14)中,从而得到该模型的θ,并根据θ得到有效VaR.

    根据表 2表 3,可以得到前沿面的对比(图 4),由图可以看出:(1)随着样本数据量m的增大,DEA前沿面逐渐接近于真实前沿面.根据DEA逼近性原理[25],当样本数据量足够大时,所得到的前沿面与真实前沿面几近重合,因此,可以近似地把样本数据量足够大的DEA前沿面视为真实前沿面. (2)当风险值小于0.03时,m=200, 500, 1 000, 2 000, 4 000的DEA前沿面差距不大,甚至几乎重合,而m=100时前沿面较低;当风险值大于0.07时,m=2 000, 4 000的前沿面出现拐点并呈现水平状,而风险值大于0.075时,m=100, 200, 500, 1 000的前沿面也出现拐点并呈现水平状,并不能很有效地接近理论上的真实前沿面.

    表  3  模型(14)的不同风险和样本数据量下的净收益率
    Table  3.  The net return according to different risk and sample sizes in Model(14)
    VaR0 m/只
    100 200 500 1 000 2 000 4 000
    0 0.000 34 0.000 34 0.000 34 0.000 34 0.000 34 0.000 34
    0.003 0.000 52 0.000 54 0.000 57 0.000 57 0.000 57 0.000 58
    0.006 0.000 67 0.000 78 0.000 80 0.000 81 0.000 82 0.000 82
    0.009 0.000 86 0.000 97 0.000 98 0.000 99 0.001 03 0.001 05
    0.012 0.001 04 0.001 17 0.001 21 0.001 22 0.001 25 0.001 28
    0.015 0.001 22 0.001 38 0.001 43 0.001 45 0.001 48 0.001 50
    0.018 0.001 41 0.001 57 0.001 62 0.001 65 0.001 72 0.001 73
    0.021 0.001 59 0.001 76 0.001 81 0.001 86 0.001 94 0.001 96
    0.024 0.001 77 0.001 95 0.001 99 0.002 06 0.002 18 0.002 19
    0.027 0.001 95 0.002 13 0.002 17 0.002 26 0.002 38 0.002 41
    0.030 0.002 14 0.002 30 0.002 36 0.002 47 0.002 61 0.002 64
    0.033 0.002 32 0.002 47 0.002 54 0.002 67 0.002 86 0.002 87
    0.036 0.002 50 0.002 65 0.002 83 0.002 87 0.003 10 0.003 10
    0.039 0.002 66 0.002 82 0.002 91 0.003 08 0.003 31 0.003 32
    0.042 0.002 81 0.002 99 0.003 09 0.003 28 0.003 52 0.003 55
    0.045 0.002 97 0.003 16 0.003 28 0.003 48 0.003 75 0.003 78
    0.048 0.003 12 0.003 33 0.003 46 0.003 69 0.003 97 0.004 01
    0.051 0.003 28 0.003 51 0.003 65 0.003 89 0.004 21 0.004 24
    0.054 0.003 43 0.003 68 0.003 83 0.004 09 0.004 38 0.004 46
    0.057 0.003 59 0.003 85 0.004 02 0.004 30 0.004 65 0.004 69
    0.060 0.003 74 0.004 01 0.004 20 0.004 50 0.004 90 0.004 92
    0.063 0.003 90 0.004 15 0.004 38 0.004 67 0.005 13 0.005 15
    0.066 0.004 05 0.004 30 0.004 57 0.004 84 0.005 36 0.005 37
    0.069 0.004 21 0.004 44 0.004 75 0.005 02 0.005 54 0.005 57
    0.072 0.004 36 0.004 58 0.004 94 0.005 19 0.005 54 0.005 57
    0.075 0.004 52 0.004 73 0.005 12 0.005 36 0.005 54 0.005 57
    0.078 0.004 67 0.004 80 0.005 22 0.005 42 0.005 54 0.005 57
    0.081 0.004 70 0.004 80 0.005 22 0.005 42 0.005 54 0.005 57
    0.084 0.004 70 0.004 80 0.005 22 0.005 42 0.005 54 0.005 57
    0.087 0.004 70 0.004 80 0.005 22 0.005 42 0.005 54 0.005 57
    0.089 0.004 70 0.004 80 0.005 22 0.005 42 0.005 54 0.005 57
    下载: 导出CSV 
    | 显示表格
    图  4  投资组合7种前沿面
    Figure  4.  The seven frontiers of portfolio

    针对上述计算结果所得到的结论,从样本数据量出发,对样本收益率均值、不同样本数据量下的净收益率的分布和收敛效果、相关性以及增加样本数据量的代价方面进行讨论.

    (1) 样本收益率均值的分布分析.由随机选取的30只股票数据的实际收益率均值分布与正态收益率分布之间的差别(图 5)及统计所得到的偏度值(1.101 6)和峰度值(3.352 1)可以看出:至少有18只股票的收益率均值集中分布在[0.001 80, 0.003 80]区间内,占比60%以上,这使得在考虑交易成本、借款约束、上下界约束和基数约束等实际约束条件下,后期计算不同样本数据量的净收益时,净收益率会集中在这个区间.

    图  5  收益率均值分布
    Figure  5.  The mean return distribution

    (2) DEA前沿面的收敛效果分析.本文从3个角度验证不同样本数据量下的DEA前沿面的收敛效果.

    其一,PEr、PEv和DEA效率值θ间的相关系数与收敛效果.由真实前沿面得到的收益导向投资组合效率PEr、风险导向投资组合效率PEv与DEA效率值θ间的相关系数(表 4)可知:随着样本数据量的增加,PEr、PEvθ间的相关系数越来越大, 两者之间差值越来越小,而由图 4可知构造的前沿面越来越逼近真实前沿面,表明m越大,其收敛效果越好.

    表  4  收益、风险导向效率PEr、PEv与DEA效率值θ间的相关系数
    Table  4.  The correlation coefficents between PEr or PEv and θ
    比较因子 m/只
    100 200 500 1 000 2 000 4 000
    PErθ 0.944 3 0.964 2 0.981 0 0.993 5 0.994 0 0.994 4
    PEvθ 0.969 1 0.982 4 0.987 2 0.991 1 0.993 0 0.993 6
    下载: 导出CSV 
    | 显示表格

    其二,收益率的差值与收敛效果.由不同风险和不同样本数据量下的净收益率与理想期望收益率的差值(表 5)可以看出:在样本数据量相同的情况下,随着风险水平的增加,净收益率与理想期望收益率的差值逐渐增大;在风险水平相同的情况下,随着样本数据量的增加,净收益率与理想期望收益率的差值逐渐缩小,其中,在m=2 000, 4 000时,此差值很小,且在2种风险水平下差值相同,可见,DEA前沿面有逐渐接近真实前沿面的趋势.

    表  5  不同风险和不同样本数据量下的净收益率与理想期望收益率的差值
    Table  5.  The distance value between the rate of net return and the rate of ideal expected return according to different risk and sample sizes
    m/只 VaR0
    0.036 0.051 0.075 0.089
    100 0.000 77 0.001 26 0.001 55 0.001 85
    200 0.000 61 0.001 03 0.001 34 0.001 75
    500 0.000 56 0.000 90 0.000 95 0.001 33
    1 000 0.000 52 0.000 65 0.000 71 0.001 12
    2 000 0.000 32 0.000 33 0.000 50 0.000 98
    4 000 0.000 29 0.000 31 0.000 50 0.000 98
    下载: 导出CSV 
    | 显示表格

    其三,净收益率区间与收敛效果.由表 3图 4可知:当净收益率rN在区间[0, 0.003]区间内取值时,不同样本数据量下的分布区别不大,几乎重合;在[0.004, 0.006]区间内取值时,m=200, 500, 1 000, 2 000, 4 000的净收益率随着样本数据量的增加而逐渐增加,DEA前沿面逐渐接近真实前沿面;对比m=1 000与m=2 000、4 000的前沿面,随着样本数据量的增加,同一风险水平所对应的净收益值会增多,其对应的风险更为连续,即可以在更低的风险水平下达到最大值,这使得m=2 000、4 000时前沿面出现拐点并呈现水平状.

    净收益率rNm=2 000, 4 000时取得最大值,但仅为0.005 57,这与真实前沿面理论下的最大收益率(rN=0.006 55)差距较大,即图 4中DEA前沿面的后段与真实前沿面差距较大,并不能很有效地接近理论真实的前沿面.

    (3) 不同样本数据量运行时间分析.本文采用Windows7旗舰版系统,CPU型号为Inter(R) Core(TM) i7-870,2.93 Hz.由程序的运行时间(表 6)可知:随着样本数据量的翻倍增加,运行时间呈几何式增加.在m=2 000, 4 000时,相同的风险水平下,其净收益率与理想期望收益率的差值非常小,而运行时间由8 502.8 s增加到35 470.8 s,增长了约4.2倍,这种时间的代价和模拟效果的不匹配,给工作效率带来巨大的困难.因此,在研究诸如多种限制条件下的前沿面拟合效率问题时,可以基于合理假设适当地修正投资组合对应取值的股票投资比例分布,以减少工作量,提高工作效率.

    表  6  不同样本数据量下的运行时间
    Table  6.  The operation time for different sizes of sample data  s
    m/只 100 200 500 1 000 2 000 4 000
    运行时间 24.8 62.7 367.7 1 070.8 8 502.8 35 470.8
    下载: 导出CSV 
    | 显示表格

    考虑交易成本、借款约束、上下界约束和基数约束等实际约束条件,本文提出了均值-VaR投资组合优化模型.在投资组合真实前沿面为凹函数的前提下,将BCC-DEA模型作为投资组合的绩效评价方法,根据逼近原理,将DEA前沿面与真实前沿面做对比.结果显示:(1)尽管投资组合样本数据量不同时得到的前沿面的估计值也不同,但随着样本数据量的增大,DEA前沿面逐渐接近于真实前沿面. (2)当样本数据量足够大时,所得到的前沿面与真实前沿面几近重合,可以近似地把样本数据量足够大的DEA前沿面作为真实前沿面. (3)在逼近过程中,原有的股票样本组合的收益率均值分布呈现出不均匀性,使得不同样本数据量下的DEA模型整体净收益较大值的出现频度进一步减少,整体净收益较小的值差距不大且频度较大,从而导致所得前沿面与真实前沿面差距较大,不能有效地接近真实前沿面.

    另外,由收益、风险导向效率PEr、PEv与DEA效率值θ间的相关系数可知:(1)随着样本数据量的增大,两者的相关系数越来越高,证明了本文构造的DEA模型的有效性,样本数据量和逼近效果的关系证明了其收敛性. (2)前沿面拐点较早地出现,DEA前沿面靠近真实前沿面的趋势变慢也进一步证明了收敛效果.实证研究表明:当样本数据量足够大的时候,构造的样本组合前沿面可以拟合达到理论最优的真实前沿面;随着数据的增加,程序耗时呈几何式的增长,对工作效率影响较大.

  • 图  1   模块特征基因与肿瘤浸润性免疫细胞相关性的热图

    注:ME为模块特征基因

    Figure  1.   The heat map of the association between module characteristic genes and tumor-infiltrating immune cells

    图  2   cyan模块内基因富集的生物学过程条目

    Figure  2.   The biological process terms of gene enrichment in the cyan module

    图  3   cyan模块内基因的蛋白互作网络图

    Figure  3.   The protein-protein interaction map network of genes in the cyan module

    图  4   枢纽基因与B细胞浸润程度的相关性

    注: TPM为Transcrios Per Million的缩写

    Figure  4.   The correlation between hub genes and the degree of B cell infiltration

    图  5   差异基因表达的火山图

    注:log2 FC代表表达量差异.

    Figure  5.   The volcano map of differentially expressed genes

    图  6   枢纽基因的Kaplan-Meier曲线

    注: (Hazard Ration)HR为风险因子.

    Figure  6.   The Kaplan-Meier curves of hub genes

    图  7   基于Oncomine数据集的基因表达的meta分析

    注:图中红色表示过表达,蓝色表示低表达.

    Figure  7.   A meta-analysis of gene expression from Oncomine datasets

  • [1]

    TAO J, YANG G, ZHOU W, et al. Targeting hypoxic tumor microenvironment in pancreatic cancer[J]. Journal of Hematology & Oncology, 2021, 14(1): 1-25. doi: 10.1186/s13045-020-01030-w

    [2]

    SUI H, MA N, WANG Y, et al. Anti-PD-1/PD-L1 therapy for non-small-cell lung cancer: toward personalized medicine and combination strategies[J]. Journal of Immunology Research, 2018(2): 1-17. http://downloads.hindawi.com/journals/jir/2018/6984948.pdf

    [3]

    TOPALIAN S, DRAKE C, PARDOLL D. Immune checkpoint blockade: a common denominator approach to cancer therapy[J]. Cancer Cell, 2015, 27(4): 450-461. doi: 10.1016/j.ccell.2015.03.001

    [4]

    TUMEH P C, HARVIEW C L, YEARLEY J H, et, al. PD-1 blockade induces responses by inhibiting adaptive immune resistance[J]. Nature, 2014, 515(7528): 568-571. doi: 10.1038/nature13954

    [5]

    WU T, DAI Y. Tumor microenvironment and therapeutic response[J]. Cancer Letters, 2017, 387(2): 61-68.

    [6]

    UDALL M, RIZZO M, KENNY J, et al. PD-L1 diagnostic tests: a systematic literature review of scoring algorithms and test-validation metrics[J]. Diagnostic Pathology, 2018, 13(1): 1-11. http://www.onacademic.com/detail/journal_1000040329081810_b9bd.html

    [7]

    BREMBES R M, Al-SHIBLI K M D, DONNEM T, et al. The role of tumor-infiltrating immune cells and chronic inflammation at the tumor site on cancer development, progression, and prognosis: emphasis on non-small cell lung cancer[J]. Journal of Thoracic Oncology, 2011, 6(4): 824-833. doi: 10.1097/JTO.0b013e3182037b76

    [8]

    LANGFELDER P, HORVATH S, LANGFELDER P, et al. WGCNA: an R package for weighted correlation network analysis[J]. BMC Bioinformatics, 2009, 9(559): 1-13. http://pdfs.semanticscholar.org/1ebe/33188f74b65fddd8679f5dbc8d243293bd80.pdf

    [9]

    LIU H, SUN Y, TIAN H, et al. Characterization of long non-coding RNA and messenger RNA profiles in laryngeal cancer by weighted gene co-expression network analysis[J]. Aging, 2019, 11(22): 10074-10099. doi: 10.18632/aging.102419

    [10]

    NEWMAN A M, LIU C L, GREEN M R, et al. Robust enumeration of cell subsets from tissue expression profiles[J]. Nature Methods, 2015, 12(5): 453-457. doi: 10.1038/nmeth.3337

    [11]

    ZHOU Y, ZHOU B, PACHE L, et al. Metascape provides a biologist-oriented resource for the analysis of systems-level datasets[J]. Nature Communications, 2019, 10(1): 1-10. doi: 10.1038/s41467-018-07882-8

    [12]

    SZKLARCZYK D, GABLE A L, LYON D, et al. STRING v11: protein-protein association networks with increased coverage, supporting functional discovery in genome-wide experimental datasets[J]. Nucleic Acids Research, 2019, 47(D1): D607-D613. doi: 10.1093/nar/gky1131

    [13]

    SHANNON P, MARKIEL A, OZIER O, et al. CYTOSCAPE: a software environment for integrated models of biomolecular interaction networks[J]. Genome Research, 2003, 13(11): 2498-2504. doi: 10.1101/gr.1239303

    [14]

    LI T, FAN J, WANG B, et al. TIMER: a web server for comprehensive analysis of tumor-infiltrating immune cells[J]. Cancer Research, 2017, 77(21): e108-e110. doi: 10.1158/0008-5472.CAN-17-0307

    [15]

    LI B, SEVERSON E, PIGNON J C, et al. Comprehensive analyses of tumor immunity: implications for cancer immunotherapy[J]. Genome Biology, 2016, 17(1): 174-190. doi: 10.1186/s13059-016-1028-7

    [16]

    GAUTIER L, COPE L, BOLSTAD B M, et al. Affy-analysis of Affymetrix GeneChip data at the probe level[J]. Bioinformatics, 2004, 20(3): 307-315. doi: 10.1093/bioinformatics/btg405

    [17]

    GOEL M K, KHANNA P, KISHORE J. Understanding survival analysis: Kaplan-Meier estimate[J]. International Journal of Ayurveda Research, 2010, 1(4): 274-278. doi: 10.4103/0974-7788.76794

    [18]

    RHODES D R, KALYANA-SUNDARAM S, MAHAVISNO V, et al. Oncomine 3.0: genes, pathways, and networks in a collection of 18, 000 cancer gene expression profiles[J]. Neoplasia, 2007, 9(2): 166-180. doi: 10.1593/neo.07112

    [19]

    KUNK P R, BAUER T W, SLINGLUFF C L, et al. From bench to bedside a comprehensive review of pancreatic cancer immuno therapy[J]. Journal for Immunotherapy of Cancer, 2016, 4: 1-12. doi: 10.1186/s40425-015-0105-x

    [20]

    CHEN W, ZHANG W, WU R, et al. Identification of biomarkers associated with histological grade and prognosis of gastric cancer by coexpression network analysis[J]. Oncology Letters, 2019, 18(5): 5499-5507.

    [21]

    YAO Q, SONG Z, WANG B, et al. Identifying key genes and functionally enriched pathways in sjgren's syndrome by weighted gene co-expression network analysis[J]. Frontiers in Genetics, 2019, 10(11): 1142-1152. http://www.ncbi.nlm.nih.gov/pubmed/31798636

    [22]

    CABRITA R, LAUSS M, SANNA A, et al. Tertiary lymphoid structures improve immunotherapy and survival in melanoma[J]. Nature, 2020, 577(7791): 561-565. doi: 10.1038/s41586-019-1914-8

    [23]

    HELMINK B A, REDDY S M, GAO J, et al. B cells and tertiary lymphoid structures promote immunotherapy response[J]. Nature, 2020, 577(7791): 1-7. http://www.nature.com/articles/s41586-019-1922-8/

    [24]

    BLEIJS D A, BINNERTS M E, VLIET S, et al. Low-affinity LFA-1/ICAM-3 interactions augment LFA-1/ICAM-1-mediated T cell adhesion and signaling by redistribution of LFA-1[J]. Journal of Cell Science, 2000, 113(3): 391-400. doi: 10.1242/jcs.113.3.391

    [25]

    CARRASCO Y R, FLEIRE S J, CAMERON T, et al. LFA-1/ICAM-1 interaction lowers the threshold of B cell activation by facilitating B cell adhesion and synapse formation[J]. Immunity, 2004, 20(5): 589-599. doi: 10.1016/S1074-7613(04)00105-0

    [26]

    LIU Y X, ZHANG F, YAO Q M, et al. Expression of CD11a in lymphocyte subpopulation in immune thrombocytopenia[J]. International Journal of Clinical & Experimental Pathology, 2015, 8(12): 15642-15651. http://europepmc.org/articles/PMC4730046?pdf=render

    [27]

    TEMPIA-CALIERA A A, HORVATH L Z, ZIMMERMANN A, et al. Adhesion molecules in human pancreatic cancer[J]. Journal of Surgical Oncology, 2010, 79(2): 93-100.

    [28]

    JENKINSON C, ELLIOTT V, MENON U, et al. Evaluation in pre-diagnosis samples discounts ICAM-1 and TIMP-1 as biomarkers for earlier diagnosis of pancreatic cancer[J]. Journal of Proteomics, 2015, 113(1): 400-402. http://core.ac.uk/download/pdf/21623553.pdf

图(7)
计量
  • 文章访问数:  497
  • HTML全文浏览量:  277
  • PDF下载量:  75
  • 被引次数: 0
出版历程
  • 收稿日期:  2021-07-11
  • 网络出版日期:  2022-01-09
  • 刊出日期:  2021-12-24

目录

/

返回文章
返回