Amarengo

Articles and news

Regularizační přístupy pro logistickou regresi pomocí Ridge a Lasso regrese s daty JIP pro WiDS datathon 2020

data jsou součástí wids datathon 2020.

přečtu data a pak se podívám na jejich rozměry a pak se podívám také na souhrnné statistiky, kolik hodnot je nulových pro proměnné.

k dispozici je 186 sloupců a 91713 řádků. Provedeme logistickou regresní analýzu dat, ale nejprve spustíme nějaké souhrnné statistiky a uvidíme, jak data vypadají a kolik řádků je NULL a

některé sloupce mají citovat mnoho null řádků, takže je odstraníme z analýzy, protože mnoho řádků má téměř více než 70 000 řádků jako nuly.

použijeme však zjednodušující metodu a zahrneme do logistického regresního modelu, kde do modelu zahrneme pouze data, pokud je méně než 3000 nulových hodnot, lze však použít i sofistikovanější přístupy, jako je medián, náhrada průměr hodnot, stejně jako náhrada založená na regresi. Tento přístup je naivní a zjednodušující, ale pro naši počáteční analýzu použijeme tento přístup, pozdě v příkladech také ukážu, jak lze použít regularizační přístupy, jako je regrese hřebene, laso regrese a elastická síť k použití také pro regularizaci, která pomáhá při snižování počtu proměnných nebo jejich dopadů.

spustíme model s proměnnými, které nemají více než 3000 nulových hodnot, takže tyto proměnné použijeme v našem počátečním běhu modelu.

spuštění tohoto modelu, dává je tyto výsledky, a jen počáteční pohledu můžeme vidět, že existuje poměrně mnoho proměnných, které nejsou významné na úrovni 0.001 a nemají význam znamení v nich, jak je uvedeno níže. Fisher iterace skóre je také poměrně vysoká a je 11, Toto jádro by mělo být v rozmezí 6-8 a ukazuje, že model není platný jeden. Vypočítáme také Mcfadden R2 na druhou pro logistický model a ukazuje hodnotu 0.5478738 však tuto hodnotu nelze brát izolovaně, protože v modelu je poměrně mnoho hodnot, které nejsou významné, a také víme, že čím více hodnot je v modelu, R na druhou bude vyšší bez ohledu na skutečnost, že model je robustní nebo platný nebo ne.

Mcfaddenův výpočet R na druhou

dále znovu spustíme model, ale odstraníme proměnné, které nejsou významné při hodnotě p v některých nižších rozsazích, a pak znovu spustíme model se zbývajícími proměnnými a předpovídáme účinnost modelu. Toto jsou proměnné, které byly z modelu odstraněny a znovu jsme spustili model se zbývajícími funkcemi. Tento přístup je manuální povahy a je zjednodušující, můžeme také použít krok vpřed nebo krok zpět odstranění stejně.

proměnné odebrané z modelu z důvodu velmi nízkého nebo žádného významného skóre p byly následující:-

etnický původ, pohlaví,výška,icu_id,apache_2_diagnosis,apache_3j_diagnosis, apache_post_operační,gcs_verbal_apache,readmission_status
heart_rate_apache, temp_apache d1_diasbp,max-d1_diasbp_min
intubated_apache,d1_mbp_max, d1_mbp_min, d1_mbp_noninvasive_max
d1_mbp_noninvasive_min, d1_resprate_max, d1_resprate_min
d1_sysbp_max, d1_sysbp_min, d1_sysbp_noninvasive_max, d1_sysbp_noninvasive_min, h1_sysbp_max, h1_sysbp_min, AIDS, lymfom

nový model je následující:-

v novém případě vidíme, že hodnoty našeho modelu p se u mnoha proměnných poměrně zvýšily, nicméně Fisherovy iterace jsou stále 11 což je mírně vysoké a velmi vysoké hodnoty více než ideální rozsah mezi 6 a 8 znamená, že model nemusí konvergovat. A1C je stejný jako poslední model, takže mezi tímto a předchozím modelem vybereme tento model nad jiným modelem kvůli hodnotám p, ale v žádném případě se nejedná o ideální model, musíme s regularizací udělat mnohem více práce, aby se tento model stal efektivnějším modelem. Thee Mcfadden r na druhou je téměř ve stejném rozsahu stále a ukazuje hodnotu 0,5359914.

dále spustíme regresi hřebene na proměnných. Budeme používat některé další knihovny, jako jsou uvedeny níže glmnet, glmUtils, wrapr, a také budeme udržovat nezávislé a závislé proměnné, jako z posledního modelu.

zde nastavíme vzorec a pak spustíme regresi hřebene.

toto jsou výsledky regrese hřebene, které jsme obdrželi.

Ridge regrese, nedává nám interpretaci jako pravidelný logistický regresní model S P-hodnotami, to však ukazuje, jaké budou hodnoty koeficientů, a Ridge regrese snižuje hodnoty proměnných, které nejsou významné blíže k 0, nicméně to nebere celou cestu k 0 nebo odstranit proměnné stejně. To lze zobrazit i níže, když vidíme seznam koeficientů v modelu.

zde můžeme vidět, že hodnoty koeficientů, které regrese hřebene, téměř dělal to blíže k 0. To lze vidět z grafu, jak je znázorněno níže:-

dále spustíme regresi laso, která vynuluje některé proměnné, které nemají silnou prediktivní schopnost se závislou proměnnou. Použijeme stejný kód jako dříve a změníme pouze hodnotu alfa z 0 na 1.

výsledky, které dostáváme, jsou následující:-

zde vidíme, že v laso regresi nastavuje mnoho hodnot na 0, a tam koeficienty ukazují a .

stejná data lze zobrazit ve formě grafu následujícím způsobem, který ukazuje, že mnoho proměnných, jejichž hodnoty byly nastaveny na 0.

toto je velmi základní úvod do některých přístupů, které by mohly být přijaty při pohledu na snížení počtu proměnných v modelu. Lze se podívat na PCA (Principal component analysis), stejně jako Elastic net přístup k dalšímu pohledu na postupující model. Také skutečná hodnota modelu se zobrazí pouze tehdy, když vidíme model běžící na testovacích datech, které jsme neviděli a byly drženy.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.