广义泊松计数模型及其统计推断

吴琴, 刘寅, 阮建

吴琴, 刘寅, 阮建. 广义泊松计数模型及其统计推断[J]. 华南师范大学学报(自然科学版), 2019, 51(6): 107-110. DOI: 10.6054/j.jscnun.2019109
引用本文: 吴琴, 刘寅, 阮建. 广义泊松计数模型及其统计推断[J]. 华南师范大学学报(自然科学版), 2019, 51(6): 107-110. DOI: 10.6054/j.jscnun.2019109
WU Qin, LIU Yin, RUAN Jian. The Generalized Poisson Count Technique and its Statistical Inference[J]. Journal of South China Normal University (Natural Science Edition), 2019, 51(6): 107-110. DOI: 10.6054/j.jscnun.2019109
Citation: WU Qin, LIU Yin, RUAN Jian. The Generalized Poisson Count Technique and its Statistical Inference[J]. Journal of South China Normal University (Natural Science Edition), 2019, 51(6): 107-110. DOI: 10.6054/j.jscnun.2019109

广义泊松计数模型及其统计推断

基金项目: 

国家自然科学基金项目 11401226

国家自然科学基金项目 11601524

广东省自然科学基金项目 2017A030310264

详细信息
    通讯作者:

    吴琴,讲师,Email:wuqin_1985@163.com

  • 中图分类号: O212.6

The Generalized Poisson Count Technique and its Statistical Inference

  • 摘要: 基于广义泊松分布的性质,提出了广义泊松计数模型,解决了泊松计数模型中对照组数据过度分散和过度集中的问题.在模型的统计推断中,通过引入缺失数据和构建替代函数,研究了使用EM算法、MM算法计算模型中参数极大似然估计的迭代收敛算法.进一步地,通过统计模拟展示迭代算法中参数估计的误差,对模拟结果进行讨论得到有效的信息.
    Abstract: Based on the Generalized Poisson distribution, the Generalized Poisson Count Technique is introduced to solve the over-dispersion and under-dispersion in the Poisson Item Count Technique. For the statistical inference, the iterative algorithm using EM algorithm and MM algorithm is studied to calculate the maximum likelihood estimate in the model by introducing the missing data and constructing the substitution function. Furthermore, in the simulation, the bias of the estimate is presented and the simulation results are discussed to find effective information.
  • 敏感性问题是指具有高度敏感或涉及私人机密的问题,由于涉及隐私,调查者很难得到真实的数据[1-4].对于敏感性特征的人数在总体中所占比例的分析,WARNER[5]提出了随机化模型,但TIAN等[6]指出该模型依赖于随机化装置,不适用于电话和网络调查,而且随机化装置的概率p接近0.5时,模型中参数估计的方差非常大;为了克服随机化模型中需要随机化装置的缺点,YU等[7]提出了非随机化方法. 1984年,MILLER[8]提出了项目计数方法,该方法既不需要随机化装置,也不需要非随机化方法中非敏感问题的独立性限制.基于项目计数方法,TSUCHIYA[9]提出了用基于交叉的方法估计不同分组群体的比例,IMAI[10]提出了基于EM方法的多元回归模型,PETROCZI[11]提出了简化的项目计数方法.这些方法的出发点都是将被调查者的真实情况隐藏在其答案中[12]

    但是模型中某些答案会泄露被调查者的隐私[13].为了克服项目计数方法泄露隐私的缺陷,TIAN等[14]、LIU等[15]分别提出了二值泊松计数模型、多值泊松计数模型.

    在泊松计数模型中,被调查者被随机地分为2个群体:实验组和对照组.对照组的被调查者需要回答与敏感性信息无关的多值答案问题,实验组的问题是在对照组的问题上加1个要调查的敏感性问题,如下所示:

    对照组:您去年出国旅游的次数?

    实验组:您去年出国旅游的次数?

    您近30天有吸毒过吗?1代表“是”,0代表“否”

    请给出上述2个问题答案之和.

    在泊松计数模型中,假设对照组的答案X服从泊松分布X~Poisson(λ),实验组和对照组的均值差即为敏感性问题比例的估计.虽然此模型可以有效地保护被调查者的隐私,但只有非敏感问题答案的均值和方差非常接近时才满足泊松分布的假设.若均值比方差小很多(过度集中),或均值比方差大很多(过度分散),泊松分布的假设明显不合理,得到的分析结果也不可靠.

    基于泊松计数模型的缺陷,本文提出了广义泊松计数模型,解决了数据过度分散和过度集中的问题;通过引入缺失数据和使用MM算法,给出了广义泊松计数模型中参数极大似然估计的迭代算法;最后通过统计模拟来演示广义泊松计数模型的功效.

    广义泊松分布[16]作为泊松分布的推广,可以有效地解决数据过度集中和过度分散的问题.其定义为:随机变量W服从广义泊松分布(Generalized Poisson distribution, 简称GP),即W~GP(ϕ, λ), 其概率分布函数为:

    $$p(w | \phi, \lambda)=\left\{\begin{array}{ll}{\frac{\lambda(\lambda+\phi w)^{n-1} \mathrm{e}^{-\lambda-\phi w}}{w !}} & {(w=0, 1, 2, \cdots)} , \\ {0 \quad(w>r, \phi<0)}.\end{array}\right. $$

    为克服泊松计数模型中数据过度集中和过度分散的问题,在泊松技术模型的基础上,将泊松分布替换为广义泊松分布,提出广义泊松计数模型.在模型的参数推断中,首先引入缺失数据,使用EM算法迭代计算参数的极大似然估计;此外,由于EM算法的M步中参数没有显式解,必须构造MM算法迭代得到M步中的结果.

    本模型中,假设非敏感问题X服从广义泊松分布,即X~GP(ϕ, λ); 敏感性问题Z服从贝努利分布,即Z~Bernoulli(π).其中敏感性人群的比例π是目标参数, 广义泊松分布的参数ϕλ是讨厌参数.

    由广义泊松分布的定义,X均值和方差分别是:E(X)=λ/(1-ϕ), Var(X)=λ/(1-ϕ)3 .显然,若参数ϕ>0, 则E(W) < Var(W), 从而可拟合过度分散的数据;若参数ϕ < 0, 则E(W) < Var(W),从而可拟合过度集中的数据;若ϕ=0, 则E(W)=Var(W),即退化为最初的泊松分布.由此可见,广义泊松分布包含泊松分布作为一个特例,可拟合过度分散和过度集中的数据,将其取代泊松技术模型中泊松分布的假设是非常合适的.

    X代表对照组的答案,Y代表实验组的被调查者的答案,观测数据为x1, …, xn1; y1, …, yn2不失一般性,假设实验组前s个答案为0.显而易见:X=WY=W+Z.则观测似然函数为:

    $$L\left(x_{1}, \cdots, x_{n_{1}} ; y_{1}, \cdots, y_{n_{2}} | \pi, \phi, \lambda\right)=\\ \;\;\;\;\prod\limits_{i=1}^{n_{1}} \frac{\lambda\left(\lambda+\phi x_{i}\right)^{x_{i}-1} \mathrm{e}^{-\lambda-\phi x_{i}}}{x_{i} !} \times \prod\limits_{i=1}^{s}\left[(1-\pi) \mathrm{e}^{-\lambda}\right] x\\ \;\;\;\;\prod\limits_{i=s+1}^{n_{2}}\left[\pi \frac{\lambda\left[\lambda+\phi\left(y_{i}-1\right)\right]^{y_{i}-2} \mathrm{e}^{-\lambda-\phi\left(y_{i}-1\right)}}{\left(y_{i}-1\right) !}+\right.\\ \;\;\;\;\left.(1-\pi) \frac{\lambda\left(\lambda+\phi y_{i}\right)^{y_{i}-1} \mathrm{e}^{-\lambda-\phi y_{i}}}{y_{i} !}\right]; $$

    对数似然函数为:

    $$l\left(x_{1}, \cdots, x_{n_{1}} ; y_{1}, \cdots, y_{n_{2}} | \pi, \phi, \lambda\right)=\\ \sum\limits_{i=1}^{n_{1}}\left[\log \lambda+\left(x_{i}-1\right) \log \left(\lambda+\phi x_{i}\right)-\left(\lambda+\phi x_{i}\right)\right]+s \log (1-\pi)-\\ s \lambda+\sum\limits_{i=s+1}^{n_{2}} \log \left[\pi \frac{\lambda\left[\lambda+\phi\left(y_{i}-1\right)\right]^{y_{i}-2} \mathrm{e}^{-\lambda-\phi\left(y_{i}-1\right)}}{\left(y_{i}-1\right) !}+\right.\\ \left.(1-\pi) \frac{\lambda\left(\lambda+\phi y_{i}\right)^{y_{i}-1} \mathrm{e}^{-\lambda-\phi y_{i}}}{y_{i} !}\right]. $$

    显然,对数似然求导后的方程没有显示解.为了得到参数的极大似然估计,采用Expectation-Maxi-mization算法(EM算法)[17-18]进行迭代. EM算法中,将实验组中非敏感问题的答案w1, …, wn2作为缺失数据, 则基于完全数据的对数似然函数为:

    $$l_{\mathrm{com}}\left(x_{1}, \cdots, x_{n_{1}} ; y_{1}, \cdots, y_{n_{2}}, w_{1}, \cdots, w_{n_{2}} | \pi, \phi, \lambda\right)=\\ \;\;\;\;\sum\limits_{i=1}^{n_{1}}\left[\log \lambda+\left(x_{i}-1\right) \log \left(\lambda+\phi x_{i}\right)-\left(\lambda+\phi x_{i}\right)\right]+\\ \;\;\;\;s \log (1-\pi)-s \lambda+\sum\limits_{i=s+1}^{n_{2}}\left[\log \lambda+\left(w_{i}-1\right) \log \left(\lambda+\phi w_{i}\right)-\right.\\ \;\;\;\;\left.\left(\lambda+\phi w_{i}\right)+\left(y_{i}-w_{i}\right) \log \pi+\left(1-y_{i}+w_{i}\right) \log (1-\pi)\right]. $$

    M步:基于完全数据对数似然函数,求参数πϕλ的极大似然估计.

    M步中,参数π有显示解:$\mathit{\pi}=\sum\limits_{i=1}^{n_{2}}\left(y_{i}-w_{i}\right) / n_{2}$,而ϕλ没有显示解,只能采用(Minorization-maximization)MM算法[19]进行估计. MM算法的迭代公式为:

    $$\phi^{(t+1)}=\frac{\phi^{(t)}\left\{\sum\limits_{i=1}^{n_{1}}\left[\left(y_{i}-1\right) y_{i} / \beta_{i}^{(t)}\right]+\sum\limits_{i=1}^{n_{1}}\left[\left(y_{i}-1\right) y_{i} / \gamma_{i}^{(t)}\right]\right\}}{\sum\limits_{i=1}^{n_{1}} x_{i}+\sum\limits_{i=1}^{n_{2}} w_{i}}, $$
    $$\lambda^{(t+1)}=\\ \frac{n_{1}+n_{2}-m_{0}+\lambda^{(t)}\left\{\sum\limits_{i=1}^{n_{1}}\left[\left(y_{i}-1\right) y_{i} / \beta_{i}^{(t)}\right]+\sum\limits_{i=1}^{n_{1}}\left[\left(y_{i}-1\right) y_{i} / \gamma_{i}^{(t)}\right]\right\}}{n_{1}+n_{2}}, $$

    其中, βi(t)=λ(t)+ϕ(t)xiγi(t)=λ(t)+ϕ(t)wim0=$\sum\limits_{i=1}^{n_{1}} I\left(x_{i}=0\right)+s+\sum\limits_{i=s+1}^{n_{2}} I\left(w_{i}=0\right)$.

    E步:求缺失数据的条件期望:

    $$\begin{array}{*{20}{c}} {E\left( {{W_i}|{Y_i}, \pi , \phi , \lambda } \right) = {y_i} - E\left( {{Z_i}|{Y_i}, \pi , \phi , \lambda } \right)}\\ {E\left( {{Z_i}|{Y_i} > 0, \pi , \phi , \lambda } \right) = \Pr \left( {{Z_i} = 1|{Y_i} > 0, \pi , \phi , \lambda } \right) = }\\ {\frac{{\pi \Pr \left( {W = {y_i} - 1} \right)}}{{\pi \Pr \left( {W = {y_i} - 1} \right) + (1 - \pi )\Pr \left( {W = {y_i}} \right)}}}\\ {E\left( {{Z_i}|{Y_i} = 0, \pi , \phi , \lambda } \right) = 0} \end{array} $$

    重复E步和M步直到估计收敛为止.

    本节通过SHELDO[20]提出的模拟方法说明广义泊松计数模型中参数估计的准确性:在给定4组真实参数的情况下计算估计值,对比估计值与真值的偏差来说明广义泊松计数模型的优良性. 4组真实参数为:

    $$(\pi, \phi, \lambda)^{\mathrm{T}}=(0.3, 0.3, 4)^{\mathrm{T}} ;(\pi, \phi, \lambda)^{\mathrm{T}}=(0.3, 0.2, 4)^{\mathrm{T}}, \\ (\pi, \phi, \lambda)^{\mathrm{T}}=(0.4, 0.3, 4)^{\mathrm{T}} ;(\pi, \phi, \lambda)^{\mathrm{T}}=(0.4, 0.2, 4)^{\mathrm{T}}. $$

    对于每组真实的参数,设定n1=n2=500.

    Step 1:产生随机变量{Xi}i=1n1和{Yi}i=1n2, 其中, Xi~GP(ϕ, λ) (i=1, 2, …, n1);Yi=Wi+Zi, Wi~GP(ϕ, λ), Zi~Bernoulli(π), i=1, 2, …, n2.

    Step 2:利用{Xi}i=1n1和{Yi}i=1n2,采用2.2节提出的EM算法和MM算法进行迭代,得到1组估计值$(\hat{\pi}, \hat{\phi}, \hat{\lambda})^{\mathrm{T}}$.

    Step 3:重复上述2个步骤1 000次,得到1 000组估计值$\left\{\left(\hat{\pi}_{i}, \hat{\phi}_{i}, \hat{\lambda}_{i}\right)^{\mathrm{T}}\right\}_{i=1}^{1000}$.

    Step 4:计算每个参数的1 000个估计值的平均数(表 1).

    表  1  不同真值下参数估计的模拟结果
    Table  1.  The simulation results for different parameters
    组别 真值 估计值
    π ϕ λ $\hat{\pi}$ $\hat{\phi}$ $\hat{\lambda}$
    第1组 0.3 0.3 4 0.33 0.3 3.97
    第2组 0.3 0.2 4 0.34 0.2 3.96
    第3组 0.4 0.3 4 0.43 0.3 3.98
    第4组 0.4 0.2 4 0.42 0.2 3.98
    下载: 导出CSV 
    | 显示表格

    由模拟结果(表 1)可以看出:(1)广义泊松计数模型能够得到关于参数ϕ可靠的估计.对于ϕ的取值(0.2和0.3),估计值和真值的变差均为0. (2)对于参数π的估计,估计的绝对误差最大为0.04(相对误差为13%),最小为0.02(相对误差为5%),误差范围是可以接受的.对于较大的真值π,误差相对较小, 这是因为π较大时,模型更容易识别,所以其误差也相对较小.此外,对于π较小时相对误差较大的情况,可以通过提高样本量n来达到预期的估计精度. (3)对于参数λ的估计,估计的绝对误差最大是0.04(相对误差为1%),最小是0.02(相对误差为0.5%),可以达到大多数调查要求的估计精度.

    本文提出了广义泊松计数模型,解决了非敏感问题答案过度分散和过度集中的问题.本模型首次提出同时构建EM算法和MM算法计算广义泊松分布的参数,解决了目前广义泊松分布参数无法估计的问题.统计模拟显示:估计的误差控制在合理的范围内,这是由于EM算法和MM算法的优良性质可以保证迭代收敛值即为极大似然估计,并且这2个算法的收敛性不依赖迭代初值的选取.

  • 表  1   不同真值下参数估计的模拟结果

    Table  1   The simulation results for different parameters

    组别 真值 估计值
    π ϕ λ ˆπ ˆϕ ˆλ
    第1组 0.3 0.3 4 0.33 0.3 3.97
    第2组 0.3 0.2 4 0.34 0.2 3.96
    第3组 0.4 0.3 4 0.43 0.3 3.98
    第4组 0.4 0.2 4 0.42 0.2 3.98
    下载: 导出CSV
  • [1]

    TANG M L, WU Q, TIAN G L, et al. Two-sample non randomized response techniques for sensitive questions[J]. Communications in Statistics-Theory and Methods, 2014, 43(2):408-425. doi: 10.1080/03610926.2012.657323

    [2]

    WU Q, TANG M L. Flexible non-randomized response models for survey with sensitive question[J]. Statistics in Medicine, 2014, 33:918-929. doi: 10.1002/sim.5999

    [3]

    LIU Y, TIAN G L, WU Q, et al. Poisson-Poisson item count techniques for surveys with sensitive discrete quantitative data [J]. Statistical Papers, 2017, 58(1):1-29. doi: 10.1007/s00362-015-0682-2

    [4]

    TOURANGEAU R, YAN T. Sensitive questions in surveys[J]. Psychological Bulletin, 2007, 133:859-883. doi: 10.1037/0033-2909.133.5.859

    [5]

    WARNER S L. Randomized response:a survey technique for eliminating evasive answer bias[J]. Journal of the American Statistical Association, 1965, 60:63-69. doi: 10.1080/01621459.1965.10480775

    [6]

    TIAN G L, YU J W, TANG M L, et al. A new non-randomized model for analyzing sensitive questions with binary outcomes [J]. Statistics in Medicine, 2007, 26:4238-4252. doi: 10.1002/sim.2863

    [7]

    YU J W, TIAN G L, TANG M L. Two new models for survey sampling with sensitive characteristic:design and ana-lysis[J]. Metrika, 2008, 67:251-263. doi: 10.1007/s00184-007-0131-x

    [8]

    MILLER J D. A new survey technique for studying deviant behavior[D]. Washington: George Washington University, 1984: 22-24.

    [9]

    TSUCHIYA T. Domain estimators for the item count technique[J]. Survey Methodoly, 2005, 31:41-51.

    [10]

    IMAI K. Multivariate regression analysis for the item count technique[J]. Journal of the American Statistical Association, 2011, 106(494):407-416. doi: 10.1198/jasa.2011.ap10415

    [11]

    PETROCZI A, NEPUSZ T, CROSS P, et al. New non-randomized model to assess the prevalence of discriminating behavior:a pilot study on mephedrone[J]. Substance Abuse Treatment, Prevention, and Policy, 2011, 6:1-20. doi: 10.1186/1747-597X-6-1

    [12]

    GREENBERG B G, ABUL-ELA A A, SIMMONS W R, et al. The unrelated question randomized response model: theoretical framework[J]. Journal of the American Statistical Association, 1969, 64:520-539. doi: 10.1080/01621459.1969.10500991

    [13]

    BLAIR G, IMAI K. Statistical analysis of list experiments[J]. Political Analysis, 2012, 20:47-77. doi: 10.1093/pan/mpr048

    [14]

    TIAN G L, TANG M L, WU Q, et al. Poisson and negative binomial item count techniques for surveys with sensitive question[J]. Statistical Methods in Medical Research, 2017, 26(2):931-947. doi: 10.1177/0962280214563345

    [15]

    LIU Y, TIAN G L, WU Q, et al. Poisson-Poisson item count techniques for surveys with sensitive discrete quantitative data[J]. Statistical Papers, 2019, 60(5):1763-1791. doi: 10.1007/s00362-017-0895-7

    [16]

    CONSUL P C. Generalized poisson distributions:properties and applications[M]. New York:CRC Press, 1988.

    [17] 何朝兵, 柴士改, 刘华文.截断删失数据下泊松分布参数的点估计[J].华南师范大学学报(自然科学版), 2015, 47(4):141-145. doi: 10.6054/j.jscnun.2015.01.011

    HE C B, CHAI S G, LIU H W. Point estimation of parameter of Poisson distribution for truncated and censored data[J]. Journal of South China Normal University(Natural Science Edition), 2015, 47(4):141-145. doi: 10.6054/j.jscnun.2015.01.011

    [18]

    DEMPSTER A P, LAIRD N M, RUBIN D B. Maximum likelihood from incomplete data via the EM algorithm[J]. Journal of the Royal Statistical Society:Series B, 1977, 39(1):1-38. https://www.researchgate.net/publication/246782707_Maximum_Likelihood_from_Incomplete_Data

    [19]

    LANGE K. MM optimization algorithms[M]. Los Ange-les, California:SIAM, 2016:93-121.

    [20]

    SHELDO M R. Simulation[M]. 5th Ed. Los Angeles: Aca-demic Press, 2012.

  • 期刊类型引用(1)

    1. 刘林才,付川云. 交通违法行为与事故关系研究:基于零截尾负二项和广义泊松模型. 综合运输. 2021(12): 51-58 . 百度学术

    其他类型引用(4)

表(1)
计量
  • 文章访问数:  1240
  • HTML全文浏览量:  712
  • PDF下载量:  56
  • 被引次数: 5
出版历程
  • 收稿日期:  2019-01-09
  • 网络出版日期:  2021-03-21
  • 刊出日期:  2019-12-24

目录

/

返回文章
返回