《計數數據模型》PPT課件.ppt
《《計數數據模型》PPT課件.ppt》由會員分享,可在線閱讀,更多相關《《計數數據模型》PPT課件.ppt(62頁珍藏版)》請在裝配圖網上搜索。
4 4離散計數數據模型ModelsForCountData 一 離散計數數據模型的提出二 計數過程及其分布三 泊松回歸模型四 負二項分布回歸模型五 零變換泊松模型 一 離散計數數據模型的提出 1 經濟社會研究中的離散計數問題 計數變量是取值為非負整數的變量許多經濟 社會問題的描述變量都為計數變量一定時間內發(fā)生事故的次數一年中公司申請的專利數量一定時間內變換工作的次數一定時間內到醫(yī)院就診的次數家庭生育孩子的數量學生在本科4年中不及格課程門數以這些變量為被解釋變量 研究它們的影響因素 構成了計量經濟學的一類問題 2 計量經濟學中的離散計數數據模型 以離散計數變量為被解釋變量 研究它們的影響因素 構成了計量經濟學的一類問題 這類問題的共同特點是 被解釋變量觀測值表現為非負整數 假設是Y計數變量 X是一組解釋變量 建立如下的經典線性模型 左端為非負整數 而右端并無限制 致使左右端矛盾 如果對Y采用對數變換 可以解決非負限制問題 在計數數據應用研究中難以實現 因為相當比例的Y的觀測值為0 當y沒有上界時 可以采用指數函數模型 非線性最小二乘方法 NLS 可以用于該模型的估計 但效果不理想 因為NLS估計量非有效 除非y的方差為常數 而實際上 所有計數數據的標準分布都意味著異方差 被解釋變量觀測值的非負整數特征 計數數據中零元素和絕對值較小的數據出現得較為頻繁 而且離散特征十分明顯 以及模型的異方差特征 決定了有必要引進描述非負整數特征的概率分布建立離散計數數據模型 七十年代末以來 許多學者在計數數據模型的處理方法方面作出了較大貢獻 包括 Gilbert 1979 提出了泊松回歸模型 Hausman Hall和Griliches 1984 提出了負二項回歸模型和Panel方法 Gourier Monfort和Trogonon 1984 提出了仿最大似然法 其中 最先提出的泊松方法在研究計數數據模型問題中應用得非常廣泛 二 計數過程及其分布 1 計數過程 計數過程的定義隨機過程 N t t 0 被稱為計數過程 N t 表示t時間前發(fā)生的事件總量 平穩(wěn)性 Stationary 在任何時間區(qū)間上 事件發(fā)生數量的分布只由時間區(qū)間的長度決定 2 單變量泊松過程 在時間區(qū)間 t t t 上 事件發(fā)生1次的概率與t時間前事件發(fā)生的數量無關 在時間區(qū)間 t t t 上 事件發(fā)生1次和0次的概率分別為 即 在一個足夠短的區(qū)間上 事件發(fā)生兩次以上的概率趨近于0 在t時刻已經發(fā)生k次的概率乘以 t t 內發(fā)生0次的概率 在t時刻已經發(fā)生 k 1 次的概率乘以 t t 內發(fā)生1次的概率 使用初始條件 求解以上微分方程利用概率生成函數得到泊松分布 3 泊松分布 Poissondistribution 在泊松過程中 標準化時間區(qū)間長度為t 1 則可以得到參數為 的標準泊松分布 泊松分布的一個重要特征是均值和方差相等 稱為分散均衡 equidispersion 泊松分布是計數過程最常見的一類分布 所謂均值和方差相等 指的是 如果對同一個個體 例如某個人一年內到醫(yī)院就診的次數 進行無數次重復抽樣 得到的計數數據序列的均值和方差相等 在實際社會經濟生活中 所謂 重復抽樣 是不可能實現的 只能根據對不同個體的一次抽樣得到的序列近似地判斷是否服從泊松分布 定理令 當且僅當X與Y獨立時 隨機變量Z X Y是泊松分布 當X與Y獨立時 Z的概率生成函數為則Z服從泊松分布 參數為 4 二項分布 Binomialdistribution 隨機變量X服從參數為n和p的二項分布 X B n p 0 p 1 即 均值和方差為 E X np Var X np 1 p 計數過程的均值大于方差 稱為分散不足 underdispersion 5 負二項分布 NegativeBinomialdistribution 如果計數過程的均值小于方差 稱為分散過度 overdispersion 對于這樣的計數過程 一般服從負二項分布 X NB 00 6 對數分布 Logarithmicdistribution 方差和均值為 7 計數數據分布特征 如果以泊松分布作為標準 二項分布更集中于均值 而負二項分布更為分散所有分布都向左側傾斜 skewedtotheleft 說明在計數分布中 數值較小的數據出現的概率較高 8 Katz分布族 非負整數分布可以用遞歸概率比表示Katz分布族定義為其中 且當 當 分布為泊松分布當 分布為二項分布當 分布為負二項分布當 分布為對數分布 三 泊松回歸模型 1 泊松回歸模型 Poissonregressionmodel 被解釋變量Yi服從參數為 i的泊松分布 其中 i與解釋變量Xi存在某種關系 模型的初始方程為 2 極大似然估計 MLE 對數似然函數最大化似然函數 一階條件 Hessian矩陣 由于Hessian矩陣是負定的 對數似然函數是凹函數 估計值的二階條件滿足利用迭代算法 可以求解一階條件例如 Newton Raphson方法g 是梯度向量 3 例題 本科不及格門數的原因分析 變量Unpass 不及格門數Score 高考成績Stime 平均每周于用學習的時間Dsa 理 文科虛變量Dbody 健康狀況虛變量 數據 數據 經典模型 OLS Poisson回歸模型 剔除不顯著變量 4 估計量的性質 模型正確設定 當且僅當存在滿足假設模型正確設定 圍繞對進行Taylor展開由一階條件可知 根據iid假設和大數定律 I為Fisher信息矩陣根據中心極限定理因此 以上結果表明 是的一致估計量由于大樣本方差矩陣達到Cramer Rao下界 估計量是大樣本有效的因此 正確設定的泊松回歸模型滿足 5 泊松回歸模型的假設檢驗 泊松回歸模型假定被解釋變量的均值等于方差 這是一個非常強的假設 如何檢驗這個假設條件是否成立 主要有以下兩種 基于回歸的檢驗方法拉格朗日乘子檢驗法 基于回歸的分布檢驗 如果 的估計趨近于1 則不拒絕零假設 如果 的估計趨近于1 的估計趨近于0 則不拒絕零假設 拉格朗日乘子檢驗泊松分布是負二項分布的一種特殊情況 如果對負二項分布的某個參數施加一定的限制條件后 就能夠得到泊松分布 構造LM統(tǒng)計量 權重為1 例題 采用基于回歸的檢驗方法檢驗被解釋變量的均值等于方差 得到回歸方程 拒絕均值等于方差零假設 由簡單統(tǒng)計分析得到 序列UNPASS的均值為0 48 方差為0 9078 可以認為該序列為分散過度型 應該采用負二項分布回歸模型 6 泊松回歸模型的擬合優(yōu)度檢驗 由于泊松回歸模型的條件均值非線性 且回歸方程存在異方差 所以它不能產生類似于經典線性模型中的R2統(tǒng)計量 提出了若干個替代性的統(tǒng)計量 用以衡量該模型的擬合優(yōu)度 PseudoR squared 該統(tǒng)計量被應用軟件 例如Eviews等 普遍采用 從直觀看 如果完全擬合 R2 1 Rp2統(tǒng)計量 該統(tǒng)計量通過把泊松模型同只有一種觀察值的模型相比較的方法 考察該模型的擬合優(yōu)度 但是這個統(tǒng)計量有時為負 而且會隨變量的減少而變小 G2統(tǒng)計量 該統(tǒng)計量為各樣本觀察值的偏差 deviance 之和 如果擬合達到完美狀態(tài) 則該統(tǒng)計量為零 分子和分母都衡量了模型在只有一種觀察值的模型基礎上的改進 分母為改進的最大空間 所以該統(tǒng)計量的數值在0到1之間 Rd2統(tǒng)計量 四 負二項分布回歸模型 負二項分布模型 NegativeBinomialRegressionModel 由于泊松模型假定被解釋變量的均值等于方差 人們提出了許多替代該模型的方法 其中應用得較多的是負二項分布模型 Cameron和Trivedi在1986年提出負二項分布的一種形式 引入無法觀察的隨機影響來使泊松模型一般化 被解釋變量的條件分布 被解釋變量的分布 該分布是負二項分布的一種形式 其條件均值為 i 條件方差為 i 1 1 i 由概率密度可以求得最大似然函數 再通過迭代法求出參數估計 對于負二項分布假設可以用Wald或者LR統(tǒng)計量進行檢驗 例題的負二項分布回歸模型 用回歸方程表示如下 UNPASS EXP 21 46440508 0 03152123676 SCORE 0 1039909045 STIME 0 1233402396 DSA 0 2315551204 DBODY 從估計結果發(fā)現 檢驗擬合優(yōu)度的統(tǒng)計量的值為0 465 表明模型具有比較好的擬合優(yōu)度 檢驗總體顯著性的LR統(tǒng)計量的值為43 39 表明模型具有很高的總體顯著性 通過變量顯著性的Z檢驗發(fā)現 理文科虛變量 Dsa 和健康狀況虛變量 Dbody 對不及格門數的影響并不顯著 五 零變換泊松模型 被解釋變量為零值的產生過程與它取正值的過程差異很大 例如 1年內到醫(yī)院就診的次數假設1 身體健康的人就診次數為0 身體不健康的人就診次數大于0 假設2 身體健康的人就診次數為0 身體不健康的人就診次數一般大于0 但也可能為0 零變換泊松模型 HurdleandZero AlteredPossionModels Mullahey 1986 最先提出了一個Hurdle模型 用白努利分布來描述被解釋變量分別為零值和正值的概率 改變了被解釋變量取零值的概率 但是所有取值的概率之和保持為1 假設1 Mullahey 1986 Lambert 1992 等人還分析了在hurdle模型的一種擴展情況 即假定被解釋變量的零值產生于兩個區(qū)域 regime 中的一個 在一個區(qū)域里 被解釋變量總是零 而另一個區(qū)域里 被解釋變量的取值符合泊松過程 既可能產生零 也可能產生其他數值 即假設2模型形式如下 如果用z表示白努利分布的兩種情況 事件發(fā)生在區(qū)域1時令z 0 發(fā)生在區(qū)域2時令z 1 并用y 表示區(qū)域2內被解釋變量服從的泊松過程 則所有觀察值都可以表示為z y 于是這個分離模型可表示為 式中F為設定的分布函數 Lambert 1992 和Greene 1994 考慮了許多方法 其中包括應用logit和probit模型描述兩個區(qū)域各自的發(fā)生概率 這些修正的方法都改變了泊松過程 即均值和方差不再相等 關于分離模型的進一步探討比較復雜 請同學們自行參考Greene的教科書和相關文獻- 配套講稿:
如PPT文件的首頁顯示word圖標,表示該PPT已包含配套word講稿。雙擊word圖標可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設計者僅對作品中獨創(chuàng)性部分享有著作權。
- 關 鍵 詞:
- 計數數據模型 計數 數據模型 PPT 課件
裝配圖網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
鏈接地址:http://appdesigncorp.com/p-6222696.html