大神們,,請(qǐng)問(wèn)邏輯回歸模型敏感度為0怎么回事,?
總體參數(shù)的估計(jì)值必須符合一些好的特性才行,,比如無(wú)偏性,,相合性(一致性),有效性之類(lèi)的,,否則你的估計(jì)值就是瞎猜。如果假定誤差均值為零,,則最小二乘估計(jì)出來(lái)的回歸系數(shù)就是無(wú)偏的,。一個(gè)估計(jì)量并不是說(shuō)無(wú)偏就一定好,也可以有偏,。如果有偏,,只要它和無(wú)偏估計(jì)量相比較“均方誤差”更小,則我們就可以選用有偏的估計(jì)量,。比如嶺回歸得到的回歸系數(shù)就是有偏估計(jì)量,,但是它比最小二乘得到的回歸系數(shù)均方誤差更小。如果假定誤差期望為零,,再加上其它幾個(gè)假定就能保證回歸系數(shù)是“最佳線(xiàn)性無(wú)偏估計(jì)量”,,也就意味著最小二乘方法不是瞎猜,是科學(xué)的,,并且在眾多科學(xué)的方法中它都是比較好的,。上面是原因一,一般的教科書(shū)都會(huì)提到,。再說(shuō)另外一個(gè)更重要的原因,,這個(gè)原因幾乎沒(méi)什么書(shū)會(huì)提到。
邏輯回歸的算法,,采用的是經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化作為模型的學(xué)習(xí)準(zhǔn)則,,即,他的優(yōu)化目標(biāo)是最小化模型在訓(xùn)練集上的平均損失,。具體而言,,邏輯回歸采用的最大后驗(yàn)概率的策略,他的目標(biāo)是使得訓(xùn)練集總體的后驗(yàn)概率最大,。因此這種算法天然地會(huì)將關(guān)注點(diǎn)更多地放在多數(shù)類(lèi)的擬合情況下,,畢竟多數(shù)類(lèi)別的分類(lèi)正確與否,更為影響最終整體的損失情況,。而在樣本不均衡的建模任務(wù)中,,我們常常其實(shí)更關(guān)注的是少數(shù)類(lèi)別的分類(lèi)正確情況。這就導(dǎo)致了我們實(shí)際的建模目標(biāo)和模型本身的優(yōu)化目標(biāo)是不一致的,。因此,,在我們的感覺(jué)之中就會(huì)認(rèn)為邏輯回歸對(duì)樣本不均衡比較敏感,。實(shí)際上,如果樣本集足夠大,,少數(shù)類(lèi)出現(xiàn)的個(gè)數(shù)足夠模型學(xué)習(xí),,同時(shí)訓(xùn)練集的樣本比例是真實(shí)世界樣本比例的真實(shí)反映,這種情況下,,我們往往不需要對(duì)數(shù)據(jù)做特別的處理,。而另一方面,樹(shù)模型采用的更新策略則完全不同,,他的優(yōu)化目標(biāo)是最大化分叉以后的信息增益的,。為了做到這一點(diǎn),樹(shù)模型天然地希望分叉以后,,每個(gè)節(jié)點(diǎn)的樣本更“純”,,從而增大增益。在這種情況下,,即使樣本有偏,,模型也會(huì)對(duì)這個(gè)類(lèi)別給予足夠的關(guān)注度,因此受樣本有偏的影響就大大減少,。至于如何應(yīng)對(duì)樣本不均衡的情況,,主要有三種方法。在數(shù)據(jù)層面,,對(duì)數(shù)據(jù)進(jìn)行采樣,。采樣的方法有很多種這里就不贅述了。在算法層面使用代價(jià)敏感學(xué)習(xí),。給多數(shù)類(lèi)分配比較小的誤分類(lèi)代價(jià)而給少數(shù)類(lèi)分配更高的代價(jià),,強(qiáng)迫算法更加關(guān)注少數(shù)類(lèi)別。還有就是使用集成學(xué)習(xí)方法,,集成包括前兩種方法在內(nèi)多種學(xué)習(xí)方法,,以獲得強(qiáng)大的集成分類(lèi)器
回歸方程里△t不可能為0的,應(yīng)該是計(jì)算錯(cuò)誤了