《計(jì)數(shù)數(shù)據(jù)模型》PPT課件.ppt
《《計(jì)數(shù)數(shù)據(jù)模型》PPT課件.ppt》由會(huì)員分享,可在線閱讀,更多相關(guān)《《計(jì)數(shù)數(shù)據(jù)模型》PPT課件.ppt(62頁珍藏版)》請?jiān)谘b配圖網(wǎng)上搜索。
4 4離散計(jì)數(shù)數(shù)據(jù)模型ModelsForCountData 一 離散計(jì)數(shù)數(shù)據(jù)模型的提出二 計(jì)數(shù)過程及其分布三 泊松回歸模型四 負(fù)二項(xiàng)分布回歸模型五 零變換泊松模型 一 離散計(jì)數(shù)數(shù)據(jù)模型的提出 1 經(jīng)濟(jì)社會(huì)研究中的離散計(jì)數(shù)問題 計(jì)數(shù)變量是取值為非負(fù)整數(shù)的變量許多經(jīng)濟(jì) 社會(huì)問題的描述變量都為計(jì)數(shù)變量一定時(shí)間內(nèi)發(fā)生事故的次數(shù)一年中公司申請的專利數(shù)量一定時(shí)間內(nèi)變換工作的次數(shù)一定時(shí)間內(nèi)到醫(yī)院就診的次數(shù)家庭生育孩子的數(shù)量學(xué)生在本科4年中不及格課程門數(shù)以這些變量為被解釋變量 研究它們的影響因素 構(gòu)成了計(jì)量經(jīng)濟(jì)學(xué)的一類問題 2 計(jì)量經(jīng)濟(jì)學(xué)中的離散計(jì)數(shù)數(shù)據(jù)模型 以離散計(jì)數(shù)變量為被解釋變量 研究它們的影響因素 構(gòu)成了計(jì)量經(jīng)濟(jì)學(xué)的一類問題 這類問題的共同特點(diǎn)是 被解釋變量觀測值表現(xiàn)為非負(fù)整數(shù) 假設(shè)是Y計(jì)數(shù)變量 X是一組解釋變量 建立如下的經(jīng)典線性模型 左端為非負(fù)整數(shù) 而右端并無限制 致使左右端矛盾 如果對Y采用對數(shù)變換 可以解決非負(fù)限制問題 在計(jì)數(shù)數(shù)據(jù)應(yīng)用研究中難以實(shí)現(xiàn) 因?yàn)橄喈?dāng)比例的Y的觀測值為0 當(dāng)y沒有上界時(shí) 可以采用指數(shù)函數(shù)模型 非線性最小二乘方法 NLS 可以用于該模型的估計(jì) 但效果不理想 因?yàn)镹LS估計(jì)量非有效 除非y的方差為常數(shù) 而實(shí)際上 所有計(jì)數(shù)數(shù)據(jù)的標(biāo)準(zhǔn)分布都意味著異方差 被解釋變量觀測值的非負(fù)整數(shù)特征 計(jì)數(shù)數(shù)據(jù)中零元素和絕對值較小的數(shù)據(jù)出現(xiàn)得較為頻繁 而且離散特征十分明顯 以及模型的異方差特征 決定了有必要引進(jìn)描述非負(fù)整數(shù)特征的概率分布建立離散計(jì)數(shù)數(shù)據(jù)模型 七十年代末以來 許多學(xué)者在計(jì)數(shù)數(shù)據(jù)模型的處理方法方面作出了較大貢獻(xiàn) 包括 Gilbert 1979 提出了泊松回歸模型 Hausman Hall和Griliches 1984 提出了負(fù)二項(xiàng)回歸模型和Panel方法 Gourier Monfort和Trogonon 1984 提出了仿最大似然法 其中 最先提出的泊松方法在研究計(jì)數(shù)數(shù)據(jù)模型問題中應(yīng)用得非常廣泛 二 計(jì)數(shù)過程及其分布 1 計(jì)數(shù)過程 計(jì)數(shù)過程的定義隨機(jī)過程 N t t 0 被稱為計(jì)數(shù)過程 N t 表示t時(shí)間前發(fā)生的事件總量 平穩(wěn)性 Stationary 在任何時(shí)間區(qū)間上 事件發(fā)生數(shù)量的分布只由時(shí)間區(qū)間的長度決定 2 單變量泊松過程 在時(shí)間區(qū)間 t t t 上 事件發(fā)生1次的概率與t時(shí)間前事件發(fā)生的數(shù)量無關(guān) 在時(shí)間區(qū)間 t t t 上 事件發(fā)生1次和0次的概率分別為 即 在一個(gè)足夠短的區(qū)間上 事件發(fā)生兩次以上的概率趨近于0 在t時(shí)刻已經(jīng)發(fā)生k次的概率乘以 t t 內(nèi)發(fā)生0次的概率 在t時(shí)刻已經(jīng)發(fā)生 k 1 次的概率乘以 t t 內(nèi)發(fā)生1次的概率 使用初始條件 求解以上微分方程利用概率生成函數(shù)得到泊松分布 3 泊松分布 Poissondistribution 在泊松過程中 標(biāo)準(zhǔn)化時(shí)間區(qū)間長度為t 1 則可以得到參數(shù)為 的標(biāo)準(zhǔn)泊松分布 泊松分布的一個(gè)重要特征是均值和方差相等 稱為分散均衡 equidispersion 泊松分布是計(jì)數(shù)過程最常見的一類分布 所謂均值和方差相等 指的是 如果對同一個(gè)個(gè)體 例如某個(gè)人一年內(nèi)到醫(yī)院就診的次數(shù) 進(jìn)行無數(shù)次重復(fù)抽樣 得到的計(jì)數(shù)數(shù)據(jù)序列的均值和方差相等 在實(shí)際社會(huì)經(jīng)濟(jì)生活中 所謂 重復(fù)抽樣 是不可能實(shí)現(xiàn)的 只能根據(jù)對不同個(gè)體的一次抽樣得到的序列近似地判斷是否服從泊松分布 定理令 當(dāng)且僅當(dāng)X與Y獨(dú)立時(shí) 隨機(jī)變量Z X Y是泊松分布 當(dāng)X與Y獨(dú)立時(shí) Z的概率生成函數(shù)為則Z服從泊松分布 參數(shù)為 4 二項(xiàng)分布 Binomialdistribution 隨機(jī)變量X服從參數(shù)為n和p的二項(xiàng)分布 X B n p 0 p 1 即 均值和方差為 E X np Var X np 1 p 計(jì)數(shù)過程的均值大于方差 稱為分散不足 underdispersion 5 負(fù)二項(xiàng)分布 NegativeBinomialdistribution 如果計(jì)數(shù)過程的均值小于方差 稱為分散過度 overdispersion 對于這樣的計(jì)數(shù)過程 一般服從負(fù)二項(xiàng)分布 X NB 00 6 對數(shù)分布 Logarithmicdistribution 方差和均值為 7 計(jì)數(shù)數(shù)據(jù)分布特征 如果以泊松分布作為標(biāo)準(zhǔn) 二項(xiàng)分布更集中于均值 而負(fù)二項(xiàng)分布更為分散所有分布都向左側(cè)傾斜 skewedtotheleft 說明在計(jì)數(shù)分布中 數(shù)值較小的數(shù)據(jù)出現(xiàn)的概率較高 8 Katz分布族 非負(fù)整數(shù)分布可以用遞歸概率比表示Katz分布族定義為其中 且當(dāng) 當(dāng) 分布為泊松分布當(dāng) 分布為二項(xiàng)分布當(dāng) 分布為負(fù)二項(xiàng)分布當(dāng) 分布為對數(shù)分布 三 泊松回歸模型 1 泊松回歸模型 Poissonregressionmodel 被解釋變量Yi服從參數(shù)為 i的泊松分布 其中 i與解釋變量Xi存在某種關(guān)系 模型的初始方程為 2 極大似然估計(jì) MLE 對數(shù)似然函數(shù)最大化似然函數(shù) 一階條件 Hessian矩陣 由于Hessian矩陣是負(fù)定的 對數(shù)似然函數(shù)是凹函數(shù) 估計(jì)值的二階條件滿足利用迭代算法 可以求解一階條件例如 Newton Raphson方法g 是梯度向量 3 例題 本科不及格門數(shù)的原因分析 變量Unpass 不及格門數(shù)Score 高考成績Stime 平均每周于用學(xué)習(xí)的時(shí)間Dsa 理 文科虛變量Dbody 健康狀況虛變量 數(shù)據(jù) 數(shù)據(jù) 經(jīng)典模型 OLS Poisson回歸模型 剔除不顯著變量 4 估計(jì)量的性質(zhì) 模型正確設(shè)定 當(dāng)且僅當(dāng)存在滿足假設(shè)模型正確設(shè)定 圍繞對進(jìn)行Taylor展開由一階條件可知 根據(jù)iid假設(shè)和大數(shù)定律 I為Fisher信息矩陣根據(jù)中心極限定理因此 以上結(jié)果表明 是的一致估計(jì)量由于大樣本方差矩陣達(dá)到Cramer Rao下界 估計(jì)量是大樣本有效的因此 正確設(shè)定的泊松回歸模型滿足 5 泊松回歸模型的假設(shè)檢驗(yàn) 泊松回歸模型假定被解釋變量的均值等于方差 這是一個(gè)非常強(qiáng)的假設(shè) 如何檢驗(yàn)這個(gè)假設(shè)條件是否成立 主要有以下兩種 基于回歸的檢驗(yàn)方法拉格朗日乘子檢驗(yàn)法 基于回歸的分布檢驗(yàn) 如果 的估計(jì)趨近于1 則不拒絕零假設(shè) 如果 的估計(jì)趨近于1 的估計(jì)趨近于0 則不拒絕零假設(shè) 拉格朗日乘子檢驗(yàn)泊松分布是負(fù)二項(xiàng)分布的一種特殊情況 如果對負(fù)二項(xiàng)分布的某個(gè)參數(shù)施加一定的限制條件后 就能夠得到泊松分布 構(gòu)造LM統(tǒng)計(jì)量 權(quán)重為1 例題 采用基于回歸的檢驗(yàn)方法檢驗(yàn)被解釋變量的均值等于方差 得到回歸方程 拒絕均值等于方差零假設(shè) 由簡單統(tǒng)計(jì)分析得到 序列UNPASS的均值為0 48 方差為0 9078 可以認(rèn)為該序列為分散過度型 應(yīng)該采用負(fù)二項(xiàng)分布回歸模型 6 泊松回歸模型的擬合優(yōu)度檢驗(yàn) 由于泊松回歸模型的條件均值非線性 且回歸方程存在異方差 所以它不能產(chǎn)生類似于經(jīng)典線性模型中的R2統(tǒng)計(jì)量 提出了若干個(gè)替代性的統(tǒng)計(jì)量 用以衡量該模型的擬合優(yōu)度 PseudoR squared 該統(tǒng)計(jì)量被應(yīng)用軟件 例如Eviews等 普遍采用 從直觀看 如果完全擬合 R2 1 Rp2統(tǒng)計(jì)量 該統(tǒng)計(jì)量通過把泊松模型同只有一種觀察值的模型相比較的方法 考察該模型的擬合優(yōu)度 但是這個(gè)統(tǒng)計(jì)量有時(shí)為負(fù) 而且會(huì)隨變量的減少而變小 G2統(tǒng)計(jì)量 該統(tǒng)計(jì)量為各樣本觀察值的偏差 deviance 之和 如果擬合達(dá)到完美狀態(tài) 則該統(tǒng)計(jì)量為零 分子和分母都衡量了模型在只有一種觀察值的模型基礎(chǔ)上的改進(jìn) 分母為改進(jìn)的最大空間 所以該統(tǒng)計(jì)量的數(shù)值在0到1之間 Rd2統(tǒng)計(jì)量 四 負(fù)二項(xiàng)分布回歸模型 負(fù)二項(xiàng)分布模型 NegativeBinomialRegressionModel 由于泊松模型假定被解釋變量的均值等于方差 人們提出了許多替代該模型的方法 其中應(yīng)用得較多的是負(fù)二項(xiàng)分布模型 Cameron和Trivedi在1986年提出負(fù)二項(xiàng)分布的一種形式 引入無法觀察的隨機(jī)影響來使泊松模型一般化 被解釋變量的條件分布 被解釋變量的分布 該分布是負(fù)二項(xiàng)分布的一種形式 其條件均值為 i 條件方差為 i 1 1 i 由概率密度可以求得最大似然函數(shù) 再通過迭代法求出參數(shù)估計(jì) 對于負(fù)二項(xiàng)分布假設(shè)可以用Wald或者LR統(tǒng)計(jì)量進(jìn)行檢驗(yàn) 例題的負(fù)二項(xiàng)分布回歸模型 用回歸方程表示如下 UNPASS EXP 21 46440508 0 03152123676 SCORE 0 1039909045 STIME 0 1233402396 DSA 0 2315551204 DBODY 從估計(jì)結(jié)果發(fā)現(xiàn) 檢驗(yàn)擬合優(yōu)度的統(tǒng)計(jì)量的值為0 465 表明模型具有比較好的擬合優(yōu)度 檢驗(yàn)總體顯著性的LR統(tǒng)計(jì)量的值為43 39 表明模型具有很高的總體顯著性 通過變量顯著性的Z檢驗(yàn)發(fā)現(xiàn) 理文科虛變量 Dsa 和健康狀況虛變量 Dbody 對不及格門數(shù)的影響并不顯著 五 零變換泊松模型 被解釋變量為零值的產(chǎn)生過程與它取正值的過程差異很大 例如 1年內(nèi)到醫(yī)院就診的次數(shù)假設(shè)1 身體健康的人就診次數(shù)為0 身體不健康的人就診次數(shù)大于0 假設(shè)2 身體健康的人就診次數(shù)為0 身體不健康的人就診次數(shù)一般大于0 但也可能為0 零變換泊松模型 HurdleandZero AlteredPossionModels Mullahey 1986 最先提出了一個(gè)Hurdle模型 用白努利分布來描述被解釋變量分別為零值和正值的概率 改變了被解釋變量取零值的概率 但是所有取值的概率之和保持為1 假設(shè)1 Mullahey 1986 Lambert 1992 等人還分析了在hurdle模型的一種擴(kuò)展情況 即假定被解釋變量的零值產(chǎn)生于兩個(gè)區(qū)域 regime 中的一個(gè) 在一個(gè)區(qū)域里 被解釋變量總是零 而另一個(gè)區(qū)域里 被解釋變量的取值符合泊松過程 既可能產(chǎn)生零 也可能產(chǎn)生其他數(shù)值 即假設(shè)2模型形式如下 如果用z表示白努利分布的兩種情況 事件發(fā)生在區(qū)域1時(shí)令z 0 發(fā)生在區(qū)域2時(shí)令z 1 并用y 表示區(qū)域2內(nèi)被解釋變量服從的泊松過程 則所有觀察值都可以表示為z y 于是這個(gè)分離模型可表示為 式中F為設(shè)定的分布函數(shù) Lambert 1992 和Greene 1994 考慮了許多方法 其中包括應(yīng)用logit和probit模型描述兩個(gè)區(qū)域各自的發(fā)生概率 這些修正的方法都改變了泊松過程 即均值和方差不再相等 關(guān)于分離模型的進(jìn)一步探討比較復(fù)雜 請同學(xué)們自行參考Greene的教科書和相關(guān)文獻(xiàn)- 1.請仔細(xì)閱讀文檔,確保文檔完整性,對于不預(yù)覽、不比對內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會(huì)出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請點(diǎn)此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
14.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標(biāo),表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計(jì)者僅對作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 計(jì)數(shù)數(shù)據(jù)模型 計(jì)數(shù) 數(shù)據(jù)模型 PPT 課件
鏈接地址:http://appdesigncorp.com/p-6222696.html