基于随机森林回归算法的用水总量影响因素解析——以广东省为例

李宁, 汪丽娜

李宁, 汪丽娜. 基于随机森林回归算法的用水总量影响因素解析——以广东省为例[J]. 华南师范大学学报(自然科学版), 2021, 53(1): 78-84. DOI: 10.6054/j.jscnun.2021012
引用本文: 李宁, 汪丽娜. 基于随机森林回归算法的用水总量影响因素解析——以广东省为例[J]. 华南师范大学学报(自然科学版), 2021, 53(1): 78-84. DOI: 10.6054/j.jscnun.2021012
LI Ning, WANG Lina. An Analysis of the Factors in Total Water Consumption Based on Random Forest Regression Algorithm: A Case Study of Guangdong Province[J]. Journal of South China Normal University (Natural Science Edition), 2021, 53(1): 78-84. DOI: 10.6054/j.jscnun.2021012
Citation: LI Ning, WANG Lina. An Analysis of the Factors in Total Water Consumption Based on Random Forest Regression Algorithm: A Case Study of Guangdong Province[J]. Journal of South China Normal University (Natural Science Edition), 2021, 53(1): 78-84. DOI: 10.6054/j.jscnun.2021012

基于随机森林回归算法的用水总量影响因素解析——以广东省为例

基金项目: 

国家自然科学基金项目 41501021

详细信息
    通讯作者:

    汪丽娜,Email: linawang2004@163.com

  • 中图分类号: TV213.4

An Analysis of the Factors in Total Water Consumption Based on Random Forest Regression Algorithm: A Case Study of Guangdong Province

  • 摘要: 通过构建包含人口、水资源、技术和经济4项因素和常住总人口、人口密度、水资源总量、降雨量、万元GDP用水量、万元工业增加值用水量、第一产业生产总值、第二产业生产总值和第三产业生产总值9个元素的层次评价体系,采用熵值法和随机森林回归算法,以广东省21个地级市为例,分析广东省用水总量的影响因素.研究结果表明:(1)从元素层角度分析,常住总人口、第三产业生产总值和第一产业生产总值是广东省用水总量的主要影响元素,而降雨量对广东省各地级市用水总量的影响最小;(2)从因素层角度分析,4项因素对广东省用水总量的影响由大到小依次为:经济因素、人口因素、水资源因素和技术因素;(3)综合元素层和因素层的分析,在人口、水资源、技术、经济因素中,影响广东省用水总量最大的元素分别为常住总人口、水资源总量、万元工业增加值用水量和第三产业生产总值.
    Abstract: A hierarchical evaluation system is constructed, including four factors (i.e., population, water resources, technology and economy) and nine elements (i.e., total resident population, population density, total water resources, rainfall, water consumption per 10 000 yuan of GDP, water consumption per 10 000 yuan of industrial added value, gross product of the primary industry, gross product of the secondary industry and gross product of the tertiary industry). The entropy method and the random forest regression algorithm are adopted to analyze the factors in the total water consumption in 21 prefecture-level cities in Guangdong Province. Three major results are obtained. First, in the element perspective, the total resident population, the gross product of the tertiary industry and the gross product of the primary industry are the main elements in the total water consumption in Guangdong Pro-vince, while rainfall has the least influence on the total water consumption of the prefecture-level cities in Guangdong Province. Second, in the factor perspective, the influence of the four factors on the total water consumption in Guangdong Province is in descending order: economic factors, population factors, water resources factors and technical factors. Third, based on the element and factor analysis, it can be seen that among the factors of population, water resources, technology and economic, the biggest elements that affect the total water consumption of Guangdong Province are the total resident population, total water resources, water consumption of 10 000 yuan per industrial added value and the gross product of the tertiary industry.
  • 水资源短缺是世界各地面临的风险, 虽然许多地区采取了应对措施,但由于影响用水总量的因素较为复杂,且因地而异, 导致效果参差不齐[1]. 例如,在上海市闵行区实行用水定额管理、淘汰落后产能的措施成功使得万元工业增加值用水量下降了56%[2]. 但在保定市徐水区实行相同策略时,仅使得万元工业增加值用水量下降了35%[3]. 学者们采用不同的方法分析用水总量的影响因素,如:利用聚类线性回归模型对太湖流域区域用水量的影响因素进行评价研究,结果表明区域经济发展的用水刚性需求是太湖流域区域用水量的主要驱动因素[4];运用对数平均迪氏指数法(LMDI)将中国用水量变化的影响因素分解为人口效应、区域人口分布效应、区域经济发达效应、区域产业结构效应和区域技术进步效应,发现技术进步和产业结构调整是抑制用水量上升的影响因素[5];运用灰色关联分析法,对影响太原市用水量的因子进行排序,结果表明水的重复利用率是影响太原市用水量的主要因子[6];运用结构分解分析的方法研究了我国1999—2002年和2002—2007年期间用水量变动的影响因素,结果显示: (1)在结构层面,人均GDP的增长是导致用水量增加的主要因素; (2)在最终需求层面,最终需求总量变化是用水量变动的主要因素[7].

    上述研究方法大多数为纯数学模型,存在计算繁琐、对缺失值与异常值较为敏感以及易过拟合与欠拟合的问题. 随机森林回归算法是2001年开发的一种自然的非线性建模工具[8],可以解释多个自变量对因变量的作用,具有训练速度快、模型泛化能力强和实现较为简单的特点[9],目前已被广泛应用于医学、生物学、管理学和经济学等众多领域[10-14]. 基于此,本文主要通过构建包含人口、水资源、技术和经济4项因素以及常住总人口、人口密度、水资源总量、降雨量、万元GDP用水量、万元工业增加值用水量、第一产业生产总值、第二产业生产总值和第三产业生产总值9个元素的指标层次结构,利用熵值法和随机森林回归算法,解析2018年广东省21个地级市用水总量的影响因素,为水资源的可持续利用提供参考.

    以广东省21个地级市为研究区域. 广东省属热带和亚热带季风气候区,地处低纬度,气候温暖湿润,降水量比较丰富. 全省2018年的平均水资源总量为1 895.1亿m3,其中,地表水资源量为1 885.2亿m3,地下水资源量为460.6亿m3,年平均降雨量为1 843.1 mm,用水总量为420.95 m3[15]. 由广东省2018年各地级市用水总量的空间分布图(图 1)可知: 广东省的用水总量具有时空分布不均的特征,以广州市为中心的珠三角地区以及粤西地区的茂名市和湛江市的用水总量较多,而粤西地区的云浮市、阳江市以及粤东地区的汕头市、潮州市、汕尾市的用水总量相对较少. 本文所用数据来源于2018年的《广东省水资源公报》和《广东省统计年鉴》.

    图  1  广东省2018年各地级市用水总量的空间分布图
    Figure  1.  The spatial map of the total water consumption of prefecture-level cities in Guangdong Province in 2018

    用水总量受多种因素的影响和制约,本文结合广东省的用水特点及相关文献[4-7],遵循科学性、可量化性原则,选取9个元素和4项因素(表 1),构建影响用水总量的指标层次结构.

    表  1  用水总量影响因素
    Table  1.  The factors for total water consumption
    因素层 元素层 表征
    人口因素(A1) 常住总人口(A11/万人) 正向元素,表征一个地区统计期内常住总人口数量.
    人口密度(A12/(人·km-2)) 正向元素,表征一个地区统计期内相同面积下人口数量.
    水资源因素(A2) 水资源总量(A21/亿m3) 正向元素,表征一个地区统计期内水资源总量.
    降雨量(A22/mm) 正向元素,表征一个地区统计期内降水量的多少.
    技术因素(A3) 万元GDP用水量(A31/(m3·万元-1)) 负向元素,表征产生同样的GDP所用的水量.
    万元工业增加值用水量(A32/(m3·万元-1)) 负向元素,表征同样的工业增加值所用的水量.
    经济因素(A4) 第一产业生产总值(A41/万元) 正向元素,表征一个地区统计期内第一产业生产总值.
    第二产业生产总值(A42/万元) 正向元素,表征一个地区统计期内第二产业生产总值.
    第三产业生产总值(A43/万元) 正向元素,表征一个地区统计期内第三产业生产总值.
    注:A31和A32为负向元素,即元素值越大,因素层的值越小;其余为正向元素,即元素值越大,因素层的值越大. 标注因素正负的目的是为下文用熵值法将因素层用元素层的数值进行量化.
    下载: 导出CSV 
    | 显示表格

    随机森林回归算法是通过集成学习的思想将多棵树集成的一种算法,其基本单元是决策树,每棵决策树都依赖于一个随机向量,且所有向量独立分布[8]. 随机森林回归算法的建立可通过调用R语言中的“randomForests”程序包[16]来实现. 设原始数据集的样本数为N, 自变量个数为m. 通过自助法(Bootstrap)重采样技术在原始数据集中有放回地抽取ntree个样本,从而构建ntree棵决策树,并在每棵树的每个节点上随机抽取mtry(mtrym)个预选变量. 每棵树最大限度生长,不做任何剪枝, 然后将所生成的ntree棵决策树组成随机森林. 每次Bootstrap重采样未被抽取的数据称为袋外数据(Out-of-Bag,OOB),作为评价随机森林回归算法的测试数据集[17].

    在建立随机森林回归算法的过程中,有2个重要的自定义参数:mtryntree. 一般地,mtry的值在变量个数的三分之一附近选取[18]. ntree的值越大,算法表现越好. 随着ntree值的增大,袋外数据误差在显著降低后基本保持稳定. 为节省时间,取达到稳定时的ntree值即可[19].

    随机森林回归算法可以对变量的重要性进行评价,其基本思想与过程是:(1)对于每一个变量,计算每棵树对应的袋外数据误差,记为ErrOOB1. 每个样本未被抽取的概率为(1-1/N) N, 当N足够大时,(1-1/N) N将收敛于1/e≈0.368,即有将近37%的样本不会被抽取[11]. (2)对袋外数据的变量加入噪声干扰,即随机地进行序列改变,再次计算袋外数据误差,记为ErrOOB2. 则可通过分析袋外数据序列改变时袋外数据误差的增加情况来估计某一变量的重要程度.设变量重要性为M,则M= ∑ (ErrOOB2-ErrOOB1)/ntree. 这个数值能够说明变量的重要性是因为加入随机噪声后,袋外数据的准确率大幅度下降(即ErrOOB2上升),表明这项变量对于样本的预测结果有很大影响,即重要程度比较高[20].

    熵来源于物理学中的热力学概念,主要反映系统的混乱程度,现应用于统计学的各个领域[21]. 在信息论中,熵是一种不确定性的度量,而信息是对有序性的度量,二者绝对值相等,符号相反. 在由t个方案、s个评价指标所构成的指标数据矩阵X ={xij}t×s中,数据评价指标的值差异越大,信息熵越小,则该指标提供的信息量越大,从而权重越大;反之,数据指标的值差异越小,信息熵越大,则该指标提供的信息量越小,从而权重越小[22]. 用熵值法确定指标权重,不易出现主观赋权法无法避免的随机性、臆断性问题,更具科学性和说服力.

    熵值法计算步骤如下:

    (1) 指标的无量纲化. 本文选择极值法作为评价用水总量影响因素指标无量纲处理的方法,使指标数值全部转化在0~1的区间内.

    正向指标运算公式为:

    xij=xijsjSjsj;
    (1)

    负向指标运算公式为:

    xij=SjxijSjsj,
    (2)

    其中,xij为第i个样本、第j项指标的原始数值,Sjxij的最大值,sjxij的最小值,x′ij为无量纲处理后的数值.

    (2) 平移. 为使熵值法运算有意义,将无量纲化的数据全部平移一个最小单位值,以满足运算要求:

    Zij=xij+A,
    (3)

    其中,Zij是平移后的数值,A为平移幅度.

    (3) 计算在第j项指标下,第i个城市的指标值占所有城市指标值之和的比重:

    pij=Zij/ni=1Zij(i=1,2,,t;j=1,2,,s),
    (4)

    其中,t为样本城市个数,s为指标个数.

    (4) 计算第j项指标熵值:

    ej=kti=1pijlnpij,
    (5)

    其中,k=1/ln t, ej≥0.

    (5) 计算第j项指标的差异系数:

    gj=1ej.
    (6)

    (6) 对差异系数归一化,计算第j项指标的权重:

    wj=gj/sj=1gj(j=1,2,,s).
    (7)

    (7) 计算第i城市用水总量的影响因素综合得分:

    Fi=sj=1wjpij.
    (8)

    (8) 为了更直观地观察各城市用水总量影响因素的相对水平,本研究对各城市综合得分进行一定程度的区间控制,将广东省21个地级市的用水总量影响因素得分(F′i)按照中位数原则调整到1~10之间[23]:

    Fi=FiminFimaxFiminFi(101)+1.
    (9)

    采用随机森林回归算法,对广东省21个地级市影响用水总量的9个元素(常住总人口、人口密度、水资源总量、降雨量、万元GDP用水量、万元工业增加值用水量、第一产业生产总值、第二产业生产总值、第三产业生产总值)进行重要性排序. 本文的元素层共9个元素,可得:m/3=3,mtry分别取2、3、4进行试算,得到最优试算参数(mtry=3). 然后,根据mtry的值确定ntree的值,由广东省用水总量影响元素的决策树数量与误差关系(图 2)可知: 当ntree=500时,误差趋于稳定且达到最小.

    图  2  广东省用水总量影响元素的决策树数量与误差关系
    Figure  2.  The relationship between the number of decision trees and error of the elements of the total water consumption in Guangdong Province

    使用随机森林回归算法可以得到2018年影响广东省用水总量的元素相对重要性(图 3),可知:(1)常住总人口对广东省用水总量影响最大,相对重要性占比为21.61%. 广东省具有人口总量大、增量高的特点: 自2006年以来,广东省常住人口数连续13年位列全国第一; 2018年达11 346万人,比2017年增加177万人,是全国唯一一个常住人口增量突破百万大关的省份[24]. 而人口规模对用水量的上升具有明显的推动作用[25]. (2)对广东省用水总量影响较大的元素为第三产业生产产值,说明服务业的发展对广东省用水总量影响程度较高. 广东省是我国重要的服务业基地. 2018年,全省第三产业产值为55 689万元,位列全国第一,且在全省GDP占比达55.12%[24]. 第三产业对区域经济发展具有强大的辐射带动作用的同时,亦需消耗大量的水. (3)降雨量对广东省用水总量影响最小,相对重要性占比仅为1.85%. 有研究[26]表明部分地区的用水总量很大程度上与气候的湿润度有关,具体表现为气候越湿润,用水总量越少. 这与本文所得结果不一致,表明用水总量的关键驱动因素是因地而异的.

    图  3  广东省用水总量影响元素的相对重要性
    Figure  3.  The relative importance of the elements of the total water consumption in Guangdong Province

    为了从宏观上更好地把握广东省用水总量的驱动因素,本文对4项因素进行重要性排序. 由于4项因素并没有直接的数据,所以先对4项因素进行量化,将得到的具体数值作为随机森林回归算法的输入. 根据熵值法计算步骤,对2018年广东省21个地级市9个用水总量影响元素的数据进行标准化处理,从而得到其熵值及在4项因素中所占的权重(表 2),并进一步量化出广东省21个地级市用水总量影响因素的得分情况(图 4).

    表  2  各元素熵值及权重
    Table  2.  The entropy value and weight of each element
    指标 人口因素(A1) 水资源因素(A2) 技术因素(A3) 经济因素(A4)
    A11 A12 A21 A22 A31 A32 A41 A42 A43
    熵值 0.871 7 0.768 4 0.872 3 0.921 0 0.954 0 0.955 2 0.894 1 0.738 1 0.657 0
    权重/% 35.64 64.36 61.78 38.22 50.69 49.31 14.89 36.86 48.26
    下载: 导出CSV 
    | 显示表格
    图  4  广东省21个地级市用水总量的影响因素得分
    Figure  4.  The score of the factors in the total water consumption of 21 prefecture-level cities in Guangdong Province

    将广东省21个地级市用水总量的4项影响因素(人口因素、水资源因素、技术因素、经济因素)的综合得分输入到随机森林回归算法中,得到因素相对重要性的排序结果(图 5). 本文共有4项影响因素,则m/3≈1, mtry分别取1和2进行试算,得到最优模型参数(mtry=1). 由于此次输入数据量较小,ntree取默认值(即ntree=500).

    图  5  广东省用水总量影响因素的相对重要性
    Figure  5.  The relative importance of the factors in the total water consumption in Guangdong Province

    由广东省用水总量影响因素的相对重要性(图 5)可知:(1)经济发展水平对广东省用水总量的影响最大. 广东省是改革开放的前沿阵地,长期以来的经济发展稳中有升,多项经济指标位居全国前列[24]:2018年,广东省的地区生产总值为9.73万亿元(排名全国第一),人均地区生产总值为86 412元(排名全国第六)[24]. 一方面,对于产业而言,经济发展离不开生产要素的投入,而水资源是重要要素之一[5];另一方面,对于家庭而言,高人均地区生产总值带来用水电器的普及,从而消耗大量水[27]. (2)人口因素在广东省用水总量影响因素相对重要性中排名第二,仅次于经济因素. 人口规模越大,需要消耗的生活用水量越大,亦需消耗更多生产及消费的产品,即需要消耗更多的水资源. (3)排在第三位的是水资源因素. 广东省河流众多,以珠江流域、韩江流域和粤东沿海、粤西沿海诸河为主,集水面积占全省面积的99.8%[28]; 气候类型为热带亚热带气候,降水充沛. 而水资源越丰富的地区,用水所受限制越小,用水总量越高[25]. (4)技术因素对广东省用水总量的影响最小. 一个地区的技术水平越高,用水总量越少[7]. 尤其对于工业等用水总量较多且技术水平具有较大提升空间的用水领域,采用更加优良高效的技术会在一定程度上减少用水总量. 而经济水平高的地区会在技术方面投入更多的节水设备,从而有助于用水总量的减少. 例如: 广东省的珠三角地区是全国科技创新与技术研发基地,也是全国经济发展的重要引擎. 深圳市作为珠三角地区经济发展的龙头,2018年每万元GDP的用水量仅为9 m3,但同时期梅州市这一指标是其21倍[29],说明经济对技术具有显著的正反馈作用,而技术水平的提高会使得用水总量减少. 就目前而言,技术因素对广东省用水总量的影响程度较低,具有较大的发展潜力,提高技术水平可作为未来广东省降低用水总量的重要途径之一.

    本文通过构建熵值法和随机森林回归算法相结合的综合评价体系来分析广东省用水总量的影响因素,对2018年广东省21个地级市用水总量进行实证分析. 主要结论如下:

    (1) 从元素层角度分析,常住总人口、第三产业生产总值和第一产业生产总值是广东省用水总量的主要影响元素,而降雨量对广东省各地级市用水总量影响最小.

    (2) 从因素层角度分析,4项因素对广东省用水总量的影响由大到小依次为:经济因素、人口因素、水资源因素和技术因素.

    (3) 综合元素层和因素层的分析,在人口、水资源、技术、经济因素中,影响广东省用水总量最大的元素分别为常住总人口、水资源总量、万元工业增加值用水量和第三产业生产总值.

    对区域用水总量进行合理规划,可为水资源的可持续利用提供参考. 本研究选择用水总量影响因素时主要参考了其他文献的指标选取方式,如何更全面、客观、因地制宜地选取评价指标,是后续研究需要进一步考虑的因素.

  • 图  1   广东省2018年各地级市用水总量的空间分布图

    Figure  1.   The spatial map of the total water consumption of prefecture-level cities in Guangdong Province in 2018

    图  2   广东省用水总量影响元素的决策树数量与误差关系

    Figure  2.   The relationship between the number of decision trees and error of the elements of the total water consumption in Guangdong Province

    图  3   广东省用水总量影响元素的相对重要性

    Figure  3.   The relative importance of the elements of the total water consumption in Guangdong Province

    图  4   广东省21个地级市用水总量的影响因素得分

    Figure  4.   The score of the factors in the total water consumption of 21 prefecture-level cities in Guangdong Province

    图  5   广东省用水总量影响因素的相对重要性

    Figure  5.   The relative importance of the factors in the total water consumption in Guangdong Province

    表  1   用水总量影响因素

    Table  1   The factors for total water consumption

    因素层 元素层 表征
    人口因素(A1) 常住总人口(A11/万人) 正向元素,表征一个地区统计期内常住总人口数量.
    人口密度(A12/(人·km-2)) 正向元素,表征一个地区统计期内相同面积下人口数量.
    水资源因素(A2) 水资源总量(A21/亿m3) 正向元素,表征一个地区统计期内水资源总量.
    降雨量(A22/mm) 正向元素,表征一个地区统计期内降水量的多少.
    技术因素(A3) 万元GDP用水量(A31/(m3·万元-1)) 负向元素,表征产生同样的GDP所用的水量.
    万元工业增加值用水量(A32/(m3·万元-1)) 负向元素,表征同样的工业增加值所用的水量.
    经济因素(A4) 第一产业生产总值(A41/万元) 正向元素,表征一个地区统计期内第一产业生产总值.
    第二产业生产总值(A42/万元) 正向元素,表征一个地区统计期内第二产业生产总值.
    第三产业生产总值(A43/万元) 正向元素,表征一个地区统计期内第三产业生产总值.
    注:A31和A32为负向元素,即元素值越大,因素层的值越小;其余为正向元素,即元素值越大,因素层的值越大. 标注因素正负的目的是为下文用熵值法将因素层用元素层的数值进行量化.
    下载: 导出CSV

    表  2   各元素熵值及权重

    Table  2   The entropy value and weight of each element

    指标 人口因素(A1) 水资源因素(A2) 技术因素(A3) 经济因素(A4)
    A11 A12 A21 A22 A31 A32 A41 A42 A43
    熵值 0.871 7 0.768 4 0.872 3 0.921 0 0.954 0 0.955 2 0.894 1 0.738 1 0.657 0
    权重/% 35.64 64.36 61.78 38.22 50.69 49.31 14.89 36.86 48.26
    下载: 导出CSV
  • [1]

    LAM K L, LANT P A, O'BRIEN K R, et al. Comparison of water-energy trajectories of two major regions experiencing water shortage[J]. Journal of Environment Management, 2016, 181: 403-412. http://www.ncbi.nlm.nih.gov/pubmed/27395015

    [2] 魏孟露. 节水型社会建设效果评估——以上海市闵行区为例[J]. 能源与节能, 2013(12): 104-105. doi: 10.3969/j.issn.2095-0802.2013.12.046

    WEI M L. An effect evaluation of a water-saving society——taking Minhang District Shanghai for example[J]. Energy and Energy Conservation, 2013(12): 104-105. doi: 10.3969/j.issn.2095-0802.2013.12.046

    [3] 张志红. 保定市徐水区工业节水思路、措施与效果[J]. 河北水利, 2020(1): 22-23. https://www.cnki.com.cn/Article/CJFDTOTAL-HBLS202001013.htm
    [4] 梁振东, 何晓静, 方红远. 基于聚类线性回归法的区域用水量影响因素分析[J]. 海河水利, 2016(3): 32-36;42. doi: 10.3969/j.issn.1004-7328.2016.03.012

    LIANG Z D, HE X J, FANG H Y. Analysis on impacting factors of regional water resources utilization based on clusterwise linear regression method[J]. Haihe Water Resources, 2016(3): 32-36;42. doi: 10.3969/j.issn.1004-7328.2016.03.012

    [5] 张陈俊, 章恒全, 陈其勇, 等. 中国用水量变化的影响因素分析——基于LMDI方法[J]. 资源科学, 2016, 38(7): 1308-1322. https://www.cnki.com.cn/Article/CJFDTOTAL-ZRZY201607012.htm

    ZHANG C J, ZHANG H Q, CHEN Q Y, et al. Factors influencing water use changes based on LMDI methods[J]. Resources Science, 2016, 38(7): 1308-1322. https://www.cnki.com.cn/Article/CJFDTOTAL-ZRZY201607012.htm

    [6] 成晋松, 吕惠进, 刘玲. 太原市用水量影响因素的灰色关联分析[J]. 水资源与水工程学报, 2012, 23(2): 109-111;115. https://www.cnki.com.cn/Article/CJFDTOTAL-XBSZ201202029.htm

    CHENG J S, LV H J, LIU L. Grey relational analysis of influence factors on water consumption in Taiyuan City[J]. Journal of Water Resources and Water Engineering, 2012, 23(2): 109-111;115. https://www.cnki.com.cn/Article/CJFDTOTAL-XBSZ201202029.htm

    [7] 张标, 刘秀丽. 我国用水量变动影响因素的结构分解分析[J]. 管理评论, 2015(5): 3-8. https://www.cnki.com.cn/Article/CJFDTOTAL-ZWGD201505002.htm

    ZHANG B, LIU X L. Structural decomposition analysis of impacting factors of China's water consumption changes[J]. Business Review, 2015(5): 3-8. https://www.cnki.com.cn/Article/CJFDTOTAL-ZWGD201505002.htm

    [8]

    BREIMAN L. Random forests[J]. Machine Learning, 2001, 45(1): 5-32. doi: 10.1023/A:1010933404324

    [9] 崔东文, 金波. 基于随机森林回归算法的水生态文明综合评价[J]. 水利水电科技进展, 2014, 34(5): 56- 60;79. https://www.cnki.com.cn/Article/CJFDTOTAL-SLSD201405012.htm

    CUI D W, JIN B. Comprehensive evaluation of water ecological civilization based on random forests regression algorithm[J]. Advances in Science and Technology of Water Resources, 2014, 34(5): 56-60;79. https://www.cnki.com.cn/Article/CJFDTOTAL-SLSD201405012.htm

    [10] 赖成光, 陈晓宏, 赵仕威, 等. 基于随机森林的洪灾风险评价模型及其应用[J]. 水利学报, 2015, 46(1): 58-66. https://www.cnki.com.cn/Article/CJFDTOTAL-SLXB201501010.htm

    LAI C G, CHEN X H, ZHAO S W, et al. A flood risk assessment model based on Random Forest and its application[J]. Journal of Hydraulic Engineering, 2015, 46 (1): 58-66. https://www.cnki.com.cn/Article/CJFDTOTAL-SLXB201501010.htm

    [11] 张冰, 周步祥, 石敏. 基于灰色关联分析与随机森林回归模型的短期负荷预测[J]. 水电能源科学, 2017(4): 203-207. https://www.cnki.com.cn/Article/CJFDTOTAL-SDNY201704051.htm

    ZHANG B, ZHOU B X, SHI M. Short-term load forecasting based on grey correlation analysis and random forest regression model[J]. Water Resources and Power, 2017(4): 203-207. https://www.cnki.com.cn/Article/CJFDTOTAL-SDNY201704051.htm

    [12]

    GRAY K R, ALJABAR P, HECKEMANN R A, et al. Random forest-based similarity measures for multi-modal classification of Alzheimer's disease[J]. Neuroimage, 2013, 65: 167-175. doi: 10.1016/j.neuroimage.2012.09.065

    [13]

    STROBL C, BOULESTEIX A L, ZEILEIS A, et al. Bias in random forest variable importance measures: illustrations, sources and a solution[J]. BMC Bioinformatics, 2007, 8(1): 1-21. doi: 10.1186/1471-2105-8-1

    [14] 白鹏飞, 安琪, Nicolaas Frans de ROOIJ, 等. 基于多模型融合的互联网信贷个人信用评估方法[J]. 华南师范大学学报(自然科学版), 2017, 49(6): 119-123. doi: 10.6054/j.jscnun.2017170

    BAI P F, AN Q, DE ROOIJ N F, et al. Internet credit personal credit assessing method based on multi-model ensemble[J]. Journal of South China Normal University(Natural Science Edition), 2017, 49(6): 119-123. doi: 10.6054/j.jscnun.2017170

    [15] 广东省水利厅. 水资源公报(2018)[EB/OL]. (2019-07-02)[2020-08-13]. http://slt.gd.gov.cn/gs2018/content/post_2528678.html.
    [16]

    LIAW A, WIENER M. Classification and regression by random forest[J]. R News, 2002, 2(3): 18-22. http://www.mendeley.com/catalog/classification-regression-randomforest/

    [17] 武晓岩, 李康. 基因表达数据判别分析的随机森林方法[J]. 中国卫生统计, 2006, 23(6): 491-494. doi: 10.3969/j.issn.1002-3674.2006.06.004

    WU X Y, LI K. The application of random forests for the classification of gene expression data[J]. Chinese Journal of Health Statistics, 2006, 23(6): 491-494. doi: 10.3969/j.issn.1002-3674.2006.06.004

    [18] 杨沐晞. 基于随机森林模型的二手房价格评估研究[D]. 长沙: 中南大学, 2012.

    YANG M X. The price evaluation research of second-hand house based on the random forest model[D]. Changsha: Cenrtal South University, 2012.

    [19] 方匡南, 吴见彬, 朱建平, 等. 随机森林方法研究综述[J]. 统计与信息论坛, 2011, 26(3): 32-38. https://www.cnki.com.cn/Article/CJFDTOTAL-TJLT201103007.htm

    FANG K N, WU J B, ZHU J P, et al. A review of technolo-gies on random forests[J]. Statistics & Information Forum, 2011, 26(3): 32-38. https://www.cnki.com.cn/Article/CJFDTOTAL-TJLT201103007.htm

    [20] 梁慧玲, 林玉蕊, 杨光, 等. 基于气象因子的随机森林算法在塔河地区林火预测中的应用[J]. 林业科学, 2016, 52(1): 89-98 https://www.cnki.com.cn/Article/CJFDTOTAL-LYKE201601011.htm

    LIANG H L, LIN Y R, YANG G, et al. Application of random forest algorithm on the forest fire prediction in Tahe area based on meteorological factors[J]. Forestry Science, 2016, 52(1): 89-98. https://www.cnki.com.cn/Article/CJFDTOTAL-LYKE201601011.htm

    [21] 袁久和, 祁春节. 基于熵值法的湖南省农业可持续发展能力动态评价[J]. 长江流域资源与环境, 2013, 22(2): 152-157. https://www.cnki.com.cn/Article/CJFDTOTAL-CJLY201302005.htm

    YUAN J H, QI C J. Dynamic assessment of regional agricultural sustainability of human province based on entropy method[J]. Resources and Environment in the Yangtze Basin, 2013, 22(2): 152-157. https://www.cnki.com.cn/Article/CJFDTOTAL-CJLY201302005.htm

    [22] 郭显光. 改进的熵值法及其在经济效益评价中的应用[J]. 系统工程理论与实践, 1998, 18(12): 98-102. https://www.cnki.com.cn/Article/CJFDTOTAL-XTLL812.018.htm

    GUO X G. Application of improved entropy method in evaluation of economic result[J]. Systems Engineering Theory & Practice, 1998, 18(12): 98-102. https://www.cnki.com.cn/Article/CJFDTOTAL-XTLL812.018.htm

    [23] 吴丹, 朱玉春. 基于随机森林方法的农村公共产品供给能力影响因素分析——以农田水利基础设施为例[J]. 财贸研究, 2012, 23(2): 39-44. https://www.cnki.com.cn/Article/CJFDTOTAL-CMYJ201202009.htm

    WU D, ZHU Y C. Influence factors on supply capability of rural public goods based on random forest: taking irrigation and water conservancy as an example[J]. Finance and Trade Research, 2012, 23(2): 39-44. https://www.cnki.com.cn/Article/CJFDTOTAL-CMYJ201202009.htm

    [24] 国家统计局. 中国统计年鉴(1999—2020)[EB/OL]. (2020-02-28)[2020-08-13]. http://www.stats.gov.cn/tjsj/ndsj/.
    [25] 金巍, 章恒全, 张洪波, 等. 城镇化进程中人口结构变动对用水量的影响[J]. 资源科学, 2018, 40(4): 784-796. https://www.cnki.com.cn/Article/CJFDTOTAL-ZRZY201804012.htm

    JIN W, ZHANG H Q, ZHANG H B, et al. The influence of population structural change on water consumption in urbanization[J]. Resources Science, 2018, 40(4): 784-796. https://www.cnki.com.cn/Article/CJFDTOTAL-ZRZY201804012.htm

    [26]

    KUNDZEWICZ Z W, KRYSANOVA V, BENESTAD R E, et al. Uncertainty in climate change impacts on water resources[J]. Environmental Science & Policy, 2018, 79: 1-8. http://www.sciencedirect.com/science/article/pii/S146290111730638X

    [27]

    FAN L X, GAI L T, TONG Y, et al. Urban water consumption and its influencing factors in China: evidence from 286 cities[J]. Journal of Cleaner Production, 2017, 166: 124-133. http://www.sciencedirect.com/science/article/pii/S0959652617317602

    [28] 广东省水利厅. 粤水资讯[EB/OL]. (2020-03-20)[2020-08-13]. http://slt.gd.gov.cn/yszx/.
    [29] 广东统计信息网. 广东统计年鉴2019年[EB/OL]. (2019-09-29)[2020-08-13]. http://stats.gd.gov.cn/gdtjnj/content/post_2639622.html.
  • 期刊类型引用(6)

    1. 冯一凡,李翅,李宇,马俊杰,冯君明. 黄河下游滩区周边城镇空间扩展特征与驱动机制. 地理研究. 2023(04): 955-976 . 百度学术
    2. 徐建荣,辜晋德,颜志庆,何明杰,黄骏. 基于碰撞水舌入水分布形态的泄洪布置优化方法及应用. 水电能源科学. 2022(08): 139-142 . 百度学术
    3. 李乐,马巍,勾蒙蒙,王娜,刘常富,肖文发. 三峡库区典型流域硝态氮输出特征及归因分析. 水土保持学报. 2022(04): 74-84 . 百度学术
    4. 朱躲萍,叶辉,王军邦,赵烜岚,左婵,芦光新,张法伟,李英年. 青海三江源区高寒植被地表反照率变化及其辐射温度效应. 生态学报. 2022(14): 5630-5641 . 百度学术
    5. 张玥,杜宝军. 基于机器学习对我国进出口总额的研究. 质量与市场. 2021(12): 150-152 . 百度学术
    6. 郑仰成,黎丽莉,王云鹏. 基于多特征参数的OMI遥感产品气溶胶分类研究——以广东省为例. 华南师范大学学报(自然科学版). 2021(04): 68-75 . 百度学术

    其他类型引用(9)

图(5)  /  表(2)
计量
  • 文章访问数:  571
  • HTML全文浏览量:  539
  • PDF下载量:  98
  • 被引次数: 15
出版历程
  • 收稿日期:  2020-09-23
  • 网络出版日期:  2021-03-23
  • 刊出日期:  2021-02-24

目录

/

返回文章
返回