Amarengo

Articles and news

abordări de regularizare pentru regresia logistică folosind regresia Ridge și Lasso cu date ICU pentru WiDS datathon 2020

datele fac parte din WIDS datathon 2020.

voi citi datele, și apoi uita-te la dimensiunile sale, și apoi uita-te la statistici sumare, precum și, cât de multe valori sunt nule pentru variabilele.

există 186 de coloane și 91713 rânduri. Vom rula analiza de regresie logistică pe date, dar mai întâi vom rula câteva statistici sumare și vom vedea cum arată datele și câte rânduri sunt nuluri și

unele dintre coloane au citat multe rânduri nule, așa că le vom elimina din analiză, deoarece multe rânduri au aproape peste 70.000 de rânduri ca nuluri.

cu toate acestea, vom folosi o metodă simplistă și vom include în modelul de regresie logistică unde vom include doar datele din model, dacă există mai puțin de 3000 de valori nule, cu toate acestea ar putea fi utilizate și abordări mai sofisticate, cum ar fi mediana, înlocuirea mediei valorilor, precum și înlocuirea bazată pe regresie. Această abordare este naivă și simplistă, dar pentru analiza noastră inițială vom folosi această abordare, târziu în exemple voi arăta și cum se pot folosi abordări de regularizare precum regresia creastei, regresia Lasso și plasa elastică pentru a fi utilizate și pentru regularizare care ajută la reducerea numărului de variabile sau a impactului acestora.

vom rula modelul cu variabilele care nu au mai mult de 3000 de valori nule, așa că vom folosi aceste variabile în modelul nostru inițial.

rularea acestui model, dă aceste rezultate și, doar prin căutarea inițială, putem vedea că există destul de multe variabile care nu sunt semnificative la nivelul 0.001 și nu au nici un semn de semnificație în ele, așa cum se arată mai jos. Fisher scoruri iterație este, de asemenea, destul de mare și este 11, acest nucleu ar trebui să fie în intervalul de 6-8 și arată că modelul nu este unul valid. De asemenea, vom calcula McFadden R2 pătrat pentru modelul logistic și arată o valoare de 0.5478738, cu toate acestea, o astfel de valoare nu poate fi luată izolat, deoarece există destul de multe valori în model care nu sunt semnificative și știm, de asemenea, cu cât sunt mai multe valori în model, R pătrat va fi mai mare indiferent de faptul că modelul este robust sau valid sau nu.

calculul R pătrat al lui Mcfadden

în continuare vom rula din nou modelul, dar vom elimina variabilele care nu sunt semnificative la valoarea p în unele dintre intervalele inferioare și apoi vom rula modelul din nou cu variabilele rămase și vom prezice eficacitatea modelului. Acestea sunt variabilele au fost eliminate din model și am rulat modelul din nou, cu caracteristicile rămase. Această abordare este manuală în natură și este simplistă, putem folosi, de asemenea, pas înainte sau pas înapoi îndepărtarea, de asemenea.

variabilele eliminate din model, din cauza scorurilor foarte mici sau deloc semnificative ale valorii p, au fost următoarele:-

etnie, sex,înălțime,icu_id,apache_2_diagnosis,apache_3j_diagnosis, apache_post_operator,gcs_verbal_apache,readmisie_status
heart_rate_apache, temp_apache d1_diasbp,max-d1_diasbp_min
intubat_apache,d1_mbp_max, d1_mbp_min, d1_mbp_noninvasive_max
d1_mbp_noninvasive_min, d1_resprate_max, d1_resprate_min
d1_sysbp_max, d1_sysbp_min, d1_sysbp_noninvasive_max, d1_sysbp_noninvasive_min, h1_sysbp_max, h1_sysbp_min, SIDA, limfom

noul model este după cum urmează:-

în noul caz, putem vedea că valorile modelului nostru p au crescut destul de mult pentru multe dintre variabile, cu toate acestea iterațiile Fisher sunt încă 11, ceea ce este ușor ridicat și valori foarte mari mai mult decât intervalul ideal între 6 și 8 înseamnă că modelul ar putea să nu fi convergent. A1C este același cu ultimul model, deci între acesta și modelul anterior, vom selecta acest model peste celălalt model datorită valorilor p, dar în niciun caz acesta nu este un model ideal, trebuie să facem mai multă muncă cu regularizarea pentru a face acest model un model mai eficient. Te Mcfadden R pătrat este aproape în același interval încă și arată valoarea 0.5359914.

în continuare vom rula regresia creastei pe variabile. Vom folosi unele biblioteci suplimentare, cum ar fi enumerate mai jos glmnet, glmUtils, wrapr , și, de asemenea, vom păstra variabilele independente și dependente, cum ar fi de la ultimul model.

aici vom configura formula și apoi vom rula regresia creastei.

acestea sunt rezultatele regresiei crestei, pe care le-am primit.

regresia creastei, nu ne oferă interpretare ca modelul de regresie logistică obișnuită cu valorile p, totuși acest lucru arată care vor fi valorile coeficienților, iar regresia creastei reduce valorile pentru variabilele care nu sunt semnificative mai aproape de 0, cu toate acestea nu o duce până la 0 sau elimină și variabilele. Acest lucru poate fi arătat și mai jos când vedem lista coeficienților din model.

aici putem vedea că valorile coeficienților care regresia creasta, aproape a făcut-o mai aproape de 0. Acest lucru poate fi văzut din grafic așa cum se arată mai jos:-

în continuare vom rula regresia Lasso, care va elimina unele variabile care nu au o capacitate predictivă puternică cu variabila dependentă. Vom folosi același cod ca înainte și vom schimba doar valoarea alfa de la 0 la 1.

rezultatele pe care le obținem sunt următoarele:-

aici putem vedea că a stabilit multe valori la 0 în regresia Lasso și acolo coeficienții arată a .

aceleași date pot fi afișate sub forma graficului după cum urmează, ceea ce arată că multe variabile ale căror valori au fost setate la 0.

aceasta este o introducere foarte de bază la unele dintre abordările care ar putea fi luate atunci când se analizează reducerea numărului de variabile din model. Se poate privi PCA (analiza principală a componentelor), precum și abordarea elastică a rețelei pentru a analiza în continuare avansarea modelului. De asemenea, adevărata valoare a modelului va fi afișată numai atunci când putem vedea modelul care rulează pe datele de testare, pe care nu le-am văzut și a fost menținut.

Lasă un răspuns

Adresa ta de email nu va fi publicată.