Amarengo

Articles and news

Regularisering tilnærminger For Logistisk regresjon ved Hjelp Av Ridge Og Lasso Regresjon MED ICU data For WiDS datathon 2020

dataene er en del AV WIDS datathon 2020.

jeg vil lese dataene, og deretter se på dimensjonene, og se også på sammendragsstatistikk, hvor mange verdier er null for variablene.

det er 186 kolonner og 91713 rader. Vi vil kjøre logistisk regresjonsanalyse på dataene, men først vil vi kjøre noen sammendragsstatistikk og se hvordan dataene ser ut og hvor mange rader er null og

Noen av kolonnene har sitat mange nullrader, så vi vil fjerne disse fra analysen så mange rader har nesten mer enn 70.000 rader som null.

men vi vil bruke en forenklet metode og vil inkludere i den logistiske regresjonsmodellen der vi bare vil inkludere dataene i modellen, hvis det er mindre enn 3000 nullverdier, men mer sofistikerte tilnærminger kan også brukes, som median, middelverdi erstatning, samt regresjonsbasert erstatning også. Denne tilnærmingen er naiv og forenklet, men for vår første analyse vil vi bruke denne tilnærmingen, sent i eksemplene vil jeg også vise hvordan man kan bruke regulariseringsmetoder som Ridge regresjon, Lasso Regresjon og Elastisk Nett for å bruke også for regularisering som bidrar til å redusere antall variabler eller deres virkninger.

vi vil kjøre modellen med variablene som ikke har mer enn 3000 nullverdier, så vi vil bruke disse variablene i vår første modellkjøring.

Kjører denne modellen, gir er disse resultatene, og ved bare første ser vi kan se at det er ganske mange variabler som ikke er signifikant på 0,001 nivå og har ingen betydning tegn i dem som vist nedenfor. Fisher iteration score er også ganske høy og er 11, denne kjernen skal være i området 6-8 og viser at modellen ikke er gyldig. Vi vil også beregne Mcfadden R2 kvadrat for logistisk modell, og det viser en verdi på 0.5478738, men en slik verdi kan ikke tas isolert, da det er ganske mange verdier i modellen som ikke er signifikante, og vi vet også at jo flere verdier som er i modellen, Vil r-kvadratet være høyere uansett om modellen er robust eller gyldig eller ikke.

Mcfadden ‘ S r squared beregning

Deretter vil vi kjøre modellen igjen, men vil fjerne variablene som ikke er signifikante ved p-verdi i noen av de nedre områdene, og vi vil da kjøre modellen igjen med de resterende variablene og forutsi effektiviteten av modellen. Dette er variablene ble fjernet fra modellen, og vi kjørte modellen igjen, med de resterende funksjonene. Denne tilnærmingen er manuell i naturen og er forenklede, kan vi også bruke skritt fremover eller skritt bakover fjerning også.

variablene fjernet fra modellen, på grunn av svært lave eller ingen signifikante p-verdi score var som følger:-

etnisitet, kjønn,høyde,icu_id,apache_2_diagnose,apache_3j_diagnose, apache_post_operativ,gcs_verbal_apache,readmission_status
heart_rate_apache, temp_apache d1_diasbp,max-d1_diasbp_min
intubated_apache,d1_mbp_max, d1_mbp_min, d1_mbp_noninvasive_max
d1_mbp_noninvasive_min, d1_resprate_max, d1_resprate_min
d1_sysbp_max, d1_sysbp_min, d1_sysbp_noninvasive_max, d1_sysbp_noninvasive_min, h1_sysbp_max, h1_sysbp_min, aids, lymfom

den nye modellen er som følger:-

i det nye tilfellet kan vi se at modell p-verdiene har økt ganske mye for mange av variablene, Men Fisher-iterasjonene er fortsatt 11, noe som er litt høyt og svært høye verdier mer enn det ideelle området mellom 6 og 8 betyr at modellen kanskje ikke har konvergert. A1C er den samme som den siste modellen, så mellom denne og den forrige modellen vil vi velge denne modellen over den andre modellen på grunn av p-verdiene, men på ingen måte er dette en ideell modell, vi må gjøre ganske mer arbeid med regularisering for å gjøre denne modellen til en mer effektiv modell. Thee Mcfadden r squared er nesten i samme rekkevidde fortsatt og viser verdien av 0.5359914.

Neste vil vi kjøre Åsen regresjon på variablene. Vi vil bruke noen ekstra biblioteker som er oppført nedenfor glmnet, glmUtils, wrapr, og også vi vil beholde de uavhengige og avhengige variablene, som fra den siste modellen.

Her vil vi sette opp formelen og da vil vi kjøre Ryggen regresjon.

Dette er resultatene fra Ryggen regresjon, som vi fikk.

Ridge regresjon, gir oss ikke tolkning som den vanlige logistiske regresjonsmodellen gjør med p-verdier, men dette viser hva som vil være verdiene til koeffisientene, og Ridge regresjon reduserer verdiene for variablene som ikke er signifikante nærmere 0, men tar det ikke helt til 0 eller fjerner variablene også. Dette kan også vises under også når vi ser listen over koeffisienter i modellen.

her kan vi se at verdiene av koeffisientene som Ryggen regresjon, nesten gjort det nærmere 0. Dette kan ses fra grafen som vist nedenfor:-

Deretter vil vi kjøre Lasso-regresjonen, som vil nullstille noen variabler som ikke har sterk prediktiv evne med den avhengige variabelen. Vi vil bruke samme kode som før, og vil bare endre verdien av alfa fra 0 til 1.

resultatene vi får er som følger:-

Her kan vi se at det setter mange verdier til 0 i lasso-regresjonen, og der koeffisientene viser a .

de samme dataene kan vises i grafformen som følger, som viser at mange variabler hvis verdier er satt til 0.

Dette er en veldig grunnleggende introduksjon til noen av tilnærmingene som kan tas når man ser på å redusere antall variabler i modellen. Man kan se PÅ Pca (Principal component analysis), Samt Elastisk nettilnærming for å se nærmere på å fremme modellen. Også den sanne verdien av modellen vil bare bli vist når vi kan se modellen som kjører på testdataene, som vi ikke har sett og har blitt holdt ut.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert.