Amarengo

Articles and news

szabályozási megközelítések a logisztikai regresszióhoz gerinc és Lasso regresszió használatával ICU adatokkal a WiDS datathon 2020 számára

az adatok a WIDS datathon 2020 részét képezik.

elolvasom az adatokat, majd megnézem a méreteit, majd az összefoglaló statisztikákat is, hogy hány érték nulla a változók számára.

186 oszlop és 91713 sor van. Logisztikai regresszióanalízist fogunk futtatni az adatokon, de először néhány összefoglaló statisztikát futtatunk, és megnézzük, hogyan néz ki az adatok, és hány sor nulla, és

néhány oszlop sok null Sort idéz, ezért eltávolítjuk ezeket az elemzésből, mivel sok sor majdnem több mint 70 000 sort tartalmaz nullaként.

azonban egy egyszerűsített módszert fogunk használni, és a logisztikai regressziós modellben csak az adatokat vesszük fel a modellbe, ha kevesebb, mint 3000 null érték van, de kifinomultabb megközelítéseket is lehet használni, mint a medián, az értékek átlaga csere, valamint a regresszió alapú csere is. Ez a megközelítés naiv és leegyszerűsített, de kezdeti elemzésünknél ezt a megközelítést fogjuk használni, a példák végén azt is bemutatom, hogyan lehet A regularizációs megközelítéseket, például a gerinc regressziót, a Lasso regressziót és az elasztikus hálót használni a regularizációhoz is, amely segít csökkenteni a változók számát vagy azok hatásait.

a modellt olyan változókkal fogjuk futtatni, amelyek legfeljebb 3000 null értékkel rendelkeznek, ezért ezeket a változókat használjuk a kezdeti modellfutás során.

fut ez a modell, ad ezek az eredmények, és csak a kezdeti keres láthatjuk, hogy elég sok változó, amelyek nem szignifikáns 0,001 szinten, és nincs jelentősége jel őket, mint az alábbiakban látható. Fisher iterációs pontszámok is elég magas, és 11, ez a mag kell a tartományban 6-8, és azt mutatja,hogy a modell nem érvényes. A logisztikai modell Mcfadden R2 négyzetét is kiszámítjuk, és 0 értéket mutat.5478738, azonban ez az érték nem vehető el egymástól, mivel a modellben elég sok olyan érték van, amely nem jelentős, és azt is tudjuk, hogy minél több érték van a modellben, az R négyzet magasabb lesz, függetlenül attól, hogy a modell robusztus vagy érvényes-e vagy sem.

Mcfadden r négyzetszámítása

ezután újra futtatjuk a modellt, de eltávolítjuk azokat a változókat, amelyek nem szignifikánsak a P-értéknél néhány alacsonyabb tartományban, majd újra futtatjuk a modellt a fennmaradó változókkal, és megjósoljuk a a modell hatékonysága. Ezeket a változókat távolítottuk el a modellből, és újra futtattuk a modellt, a többi funkcióval együtt. Ez a megközelítés kézi jellegű, és egyszerű, mi is használható lépés előre vagy lépés hátra eltávolítása is.

a modellből eltávolított változók a nagyon alacsony vagy nem szignifikáns p-érték pontszámok miatt a következők voltak:-

etnikum, nem,magasság,icu_id,apache_2_diagnosis,apache_3j_diagnosis, apache_post_operatív,gcs_verbal_apache,readmission_status
heart_rate_apache, temp_apache d1_diasbp,max-d1_diasbp_min
intubált_apache,d1_mbp_max, d1_mbp_min, d1_mbp_noninvasive_max
d1_mbp_noninvasive_min, d1_resprate_max, d1_resprate_min
d1_sysbp_max, d1_sysbp_min, d1_sysbp_noninvasive_max, d1_sysbp_noninvasive_min, h1_sysbp_max, h1_sysbp_min, AIDS, lymphoma

az új modell a következő:-

az Új esetben láthatjuk, hogy a modell p értékei sok változónál kissé növekedtek, azonban a Fisher iterációk még mindig 11, ami kissé magas és nagyon magas érték, mint az ideális 6 és 8 közötti tartomány, azt jelenti, hogy a modell nem konvergált. Az A1C megegyezik az utolsó modellel, tehát ez és az előző modell között a p-értékek miatt ezt a modellt választjuk a másik modell helyett, de semmiképpen sem ideális modell, sokkal több munkát kell végeznünk a szabályozással, hogy ez a modell hatékonyabb modell legyen. A Mcfadden R négyzet majdnem ugyanabban a tartományban van, és 0,5359914 értéket mutat.

ezután lefuttatjuk a gerinc regresszióját a változókon. Néhány további könyvtárat fogunk használni, mint például a glmnet, a glmUtils, a wrapr, és megtartjuk a független és függő változókat, mint az előző modellből.

itt állítjuk be a képletet, majd lefuttatjuk a gerinc regresszióját.

ezek a gerinc regressziójának eredményei, amit kaptunk.

Ridge regresszió, nem ad értelmezést, mint a rendszeres logisztikai regressziós modell a p-értékekkel, azonban ez megmutatja, hogy mi lesz az együtthatók értéke, és a Ridge regresszió csökkenti azoknak a változóknak az értékeit, amelyek nem szignifikánsak közelebb a 0-hoz, azonban nem veszi egészen 0-ig, vagy eltávolítja a változókat is. Ez az alábbiakban is megmutatható, amikor a modellben az együtthatók listáját látjuk.

itt láthatjuk, hogy az értékek az együtthatók, hogy a gerinc regresszió, majdnem tette közelebb 0. Ez az alábbi grafikonból látható:-

ezután lefuttatjuk a Lasso regressziót, amely kizár néhány olyan változót, amelyeknek nincs erős prediktív képessége a függő változóval. Ugyanazt a kódot fogjuk használni, mint korábban, és csak az alfa értékét változtatjuk 0-ról 1-re.

az általunk kapott eredmények a következők:-

itt láthatjuk, hogy a Lasso regresszióban sok értéket 0-ra állított, és ott az együtthatók a-t mutatnak .

ugyanezek az adatok a következőképpen mutathatók be a grafikon formájában, ami azt mutatja, hogy sok változó, amelynek értékét 0-ra állították.

ez egy nagyon alapvető bevezetés néhány olyan megközelítéshez, amelyet a modellben szereplő változók számának csökkentése során lehet alkalmazni. Megnézhetjük a PCA-t (főkomponens-elemzés), valamint az elasztikus nettó megközelítést a modell továbbfejlesztéséhez. A modell valódi értéke is csak akkor jelenik meg, ha láthatjuk a modell futását a tesztadatokon, amelyeket még nem láttunk és kinyújtottak.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.