Amarengo

Articles and news

logistisen regression Regularisointimenetelmät käyttäen Ridge-ja Lasso-regressiota ja WiDS datathon 2020

data on osa WIDS datathon 2020-aineistoa.

luen aineiston ja katson sitten sen mitat, ja sitten katson myös yhteenvetotilastoja, kuinka moni arvo on nolla muuttujille.

palstoja on 186 ja rivejä 91713. Suoritamme datalle logistisen regressioanalyysin, mutta ensin suoritamme yhteenvedon tilastoista ja katsomme, miltä data näyttää ja kuinka monta riviä on nulleja ja

joissakin sarakkeissa on useita null-rivejä, joten poistamme nämä analyysistä, koska monilla riveillä on lähes 70 000 riviä nulleina.

kuitenkin käytämme yksinkertaista menetelmää ja sisällytämme logistiseen regressiomalliin, jossa sisällytämme tiedot malliin vain, jos nolliarvoja on alle 3000, mutta myös kehittyneempiä lähestymistapoja voitaisiin käyttää, kuten mediaani, arvojen korvaamisen keskiarvo sekä regressiopohjainen korvaaminen. Tämä lähestymistapa on naiivi ja yksinkertainen, mutta meidän alustava analyysi käytämme tätä lähestymistapaa, myöhään esimerkkejä aion myös osoittaa, miten voidaan käyttää Regularisointi lähestymistapoja, kuten Ridge regressio, Lasso regressio ja elastinen verkko käyttää sekä Regularisointi, joka auttaa vähentämään muuttujien tai niiden vaikutuksia.

ajamme mallin muuttujilla, joilla on enintään 3000 Nollaa, joten käytämme näitä muuttujia alkuperäisessä malliajossamme.

Running tämä malli, antaa on nämä tulokset, ja vain alustavan näköinen voimme nähdä, että on olemassa melko monia muuttujia, jotka eivät ole merkittäviä 0.001 tasolla ja ei ole merkitystä merkki niistä kuten alla. Fisher Iteration pisteet on myös melko korkea ja on 11, tämä ydin pitäisi olla välillä 6-8 ja osoittaa, että malli ei ole pätevä. Laskemme myös logistiselle mallille McFadden R2: n potenssiin ja se osoittaa arvon 0.5478738, tällaista arvoa ei kuitenkaan voida ottaa erikseen, koska mallissa on melko monia arvoja, jotka eivät ole merkittäviä, ja tiedämme myös, mitä enemmän arvoja mallissa on, r: n neliö on korkeampi riippumatta siitä, onko malli luotettava tai pätevä vai ei.

McFaddenin R-potenssilaskelma

seuraavaksi ajamme mallin uudelleen, mutta poistamme muuttujat, jotka eivät ole merkittäviä p-arvolla joissakin alemmissa vaihteluväleissä, minkä jälkeen ajamme mallin uudelleen jäljellä olevien muuttujien kanssa ja ennustamme mallin tehokkuus. Nämä muuttujat poistettiin mallista ja ajoimme mallin uudelleen, jäljellä olevilla ominaisuuksilla. Tämä lähestymistapa on manuaalinen luonteeltaan ja on yksinkertainen, voimme myös käyttää askel eteenpäin tai askel taaksepäin poisto samoin.

mallista poistetut muuttujat, koska p-arvo oli hyvin pieni tai ei ollut merkittävä, olivat seuraavat:-

etnisyys, sukupuoli,pituus,Teho-osasto,apache_2_diagnoosi,apache_3j_diagnoosi, apache_post_operatiivinen,gcs_verbal_apache,takaisinotto_status
heart_rate_apache, temp_apache d1_diasbp,max-d1_diasbp_min
intuboitu_apache d1_mbp_max,d1_mbp_min, d1_mbp_noninvasive_max
d1_mbp_noninvasive_min, d1_resprate_max, d1_resprate_min
d1_sysbp_max, d1_sysbp_min, d1_sysbp_noninvasive_max d1_sysbp_noninvasive_min, h1_sysbp_max, h1_sysbp_min, aids, lymfooma

uusi malli on seuraava:-

uudessa tapauksessa voimme nähdä, että meidän malli p arvot ovat kasvaneet melko vähän monien muuttujien, mutta Fisher iterations ovat edelleen 11 joka on hieman korkea ja erittäin korkeat arvot enemmän kuin ihanteellinen välillä 6 ja 8 tarkoittaa, että malli ei ehkä ole lähentynyt. A1C on sama kuin edellinen malli, joten tämän ja edellisen mallin välillä valitsemme tämän mallin yli toisen mallin p-arvojen takia, mutta tämä ei suinkaan ole ihanteellinen malli, meidän täytyy tehdä melko paljon työtä regularisoinnin kanssa, jotta tämä malli olisi tehokkaampi malli. Thee Mcfadden R neliö on lähes samalla alueella edelleen ja osoittaa arvon 0,5359914.

seuraavaksi tehdään Ridge-regressio muuttujista. Käytämme joitakin muita kirjastoja, kuten alla glmnet, glmUtils, wrapr , ja myös pidämme riippumattomat ja riippuvat muuttujat, kuten edellisestä mallista.

täällä asetamme kaavan ja sitten suoritamme Ridge-regression.

nämä ovat Ridge-regression tulokset, jotka saimme.

Ridge-regressio, ei anna meille tulkintaa kuten säännöllinen logistinen regressiomalli tekee p-arvoilla, mutta tämä osoittaa, mitkä ovat kertoimien arvot, ja Ridge-regressio vähentää muuttujien arvoja, jotka eivät ole merkittäviä lähempänä 0: ta, mutta ei ota sitä aina 0: een tai poista muuttujia myös. Tämä voidaan osoittaa myös alla, kun näemme luettelon kertoimia mallissa.

tässä voimme nähdä, että arvot kertoimia, että Ridge regressio, melkein teki siitä lähempänä 0. Tämä voidaan nähdä graafista kuten alla:-

seuraavaksi ajetaan Lasso-regressio, joka Nollaa joitain muuttujia, joilla ei ole vahvaa ennustekykyä riippuvaisen muuttujan kanssa. Käytämme samaa koodia kuin ennenkin ja muutamme vain alfan arvon 0: sta 1: een.

tulokset, että saamme ovat seuraavat:-

tässä voimme nähdä, että se asettaa monia arvoja 0, Lasso regressio, ja siellä kertoimet osoittavat .

samat tiedot voidaan esittää kuvaajamuodossa seuraavasti, mikä osoittaa, että monet muuttujat, joiden arvoksi on asetettu 0.

tämä on hyvin alkeellinen johdatus joihinkin lähestymistapoihin, joita voitaisiin ottaa tarkasteltaessa muuttujien määrän vähentämistä mallissa. Voidaan tarkastella PCA (pääkomponenttianalyysi), sekä joustava net lähestymistapa tarkastella edelleen etenee malli. Myös mallin todellinen arvo selviää vasta, kun näemme testidatan perusteella, mitä emme ole nähneet ja mitä on pidetty esillä.

Vastaa

Sähköpostiosoitettasi ei julkaista.