Amarengo

Articles and news

Regulariseringsbenaderingen voor logistieke regressie met Ridge-en Lasso-regressie met ICU-gegevens voor Widsdatathon 2020

de gegevens maken deel uit van de WIDSDATATHON 2020.

Ik zal de gegevens lezen, en dan kijken naar de afmetingen, en dan kijken naar de samenvatting statistieken ook, hoeveel waarden zijn null voor de variabelen.

er zijn 186 kolommen en 91713 rijen. We zullen logistische regressieanalyse uitvoeren op de gegevens, maar eerst zullen we enkele samenvattende statistieken uitvoeren en zien hoe de gegevens eruit zien en hoeveel rijen nulls zijn en

sommige kolommen hebben veel null rijen Geciteerd, dus we zullen deze uit de analyse verwijderen omdat veel rijen bijna meer dan 70.000 rijen hebben als nulls.

we zullen echter een simplistische methode gebruiken en in het logistische regressiemodel opnemen waar we alleen de gegevens in het model zullen opnemen, als er minder dan 3000 nulwaarden zijn, maar ook meer geavanceerde benaderingen kunnen worden gebruikt, zoals mediaan, gemiddelde van waarden vervanging, evenals regressie gebaseerde vervanging. Deze aanpak is naïef en simplistisch, maar voor onze eerste analyse zullen we deze aanpak gebruiken, laat in de voorbeelden zal ik ook laten zien hoe kan men gebruik maken van regularisatie benaderingen zoals Ridge regressie, Lasso regressie en elastisch Net te gebruiken als goed voor regularisatie die helpt bij het verminderen van het aantal variabelen of hun effecten.

we zullen het model uitvoeren met de variabelen die niet meer dan 3000 null waarden hebben, dus we zullen deze variabelen gebruiken in onze eerste model run.

het uitvoeren van dit model, geeft is deze resultaten, en door slechts in eerste instantie kijken we kunnen zien dat er vrij veel variabelen die niet significant zijn op 0.001 niveau en hebben geen significantie teken in hen zoals hieronder getoond. Fisher iteratie scores is ook vrij hoog en is 11, Deze core moet in het bereik van 6-8 en laat zien dat het model is niet een geldig. We zullen ook de Mcfadden R2 kwadraat berekenen voor het logistieke model en het toont een waarde van 0.5478738, maar een dergelijke waarde kan niet afzonderlijk worden genomen, omdat er vrij veel waarden in het model die niet significant zijn, en we weten ook hoe meer waarden die in het model, de R kwadraat hoger zal zijn, ongeacht het feit dat het model is robuust of geldig of niet.

Mcfadden ‘ s R-kwadraat berekening

Vervolgens zullen we de re-run van het model, maar het zal verwijderen van de variabelen die niet significant zijn bij een p-waarde in sommige van de lagere reeksen en we draaien dan het model weer met de overige variabelen en het voorspellen van de effectiviteit van het model. Dit zijn de variabelen die uit het model zijn verwijderd en we hebben het model opnieuw uitgevoerd, met de resterende functies. Deze aanpak is handmatig van aard en is simplistisch, we kunnen ook gebruik maken van stap naar voren of stap terug verwijderen ook.

de variabelen die uit het model werden verwijderd vanwege zeer lage of geen significante p-waarde-scores waren als volgt:-

etniciteit, geslacht,lengte,icu_id,apache_2_diagnosis,apache_3j_diagnosis, apache_post_operative,gcs_verbal_apache,readmission_status
heart_rate_apache, temp_apache d1_diasbp,max -d1_diasbp_min
intubated_apache,d1_mbp_max, d1_mbp_min, d1_mbp_noninvasive_max
d1_mbp_noninvasive_min, d1_resprate_max, d1_resprate_min
d1_sysbp_max, d1_sysbp_min, d1_sysbp_noninvasive_max, d1_sysbp_noninvasive_min, h1_sysbp_max, h1_sysbp_min, aids, lymfoom

Het nieuwe model is als volgt:-

In het nieuwe geval kunnen we zien dat onze model p-waarden voor veel van de variabelen behoorlijk zijn toegenomen, maar de Fisher-iteraties zijn nog steeds 11 wat licht hoog is en zeer hoge waarden meer dan het ideale bereik tussen 6 en 8 betekent dat het model misschien niet is geconvergeerd. A1C is hetzelfde als het vorige model, dus tussen dit en het vorige model zullen we dit model kiezen boven het andere model vanwege de p-waarden, maar dit is zeker geen ideaal model, we moeten veel meer werken met regularisatie om dit model een effectiever model te maken. De Mcfadden R kwadraat is bijna in hetzelfde bereik nog steeds en toont de waarde van 0.5359914.

Vervolgens zullen we de Ridge regressie van de variabelen. We zullen een aantal extra bibliotheken gebruiken zoals hieronder glmnet, glmUtils, wrapr, en ook zullen we de onafhankelijke en afhankelijke variabelen behouden , zoals van het laatste model.

Hier zetten we de formule op en dan doen we de Ridge regressie.

dit zijn de resultaten van de Ridge regressie, die we ontvingen.

Ridge regressie, geeft ons geen interpretatie zoals het reguliere logistische regressie model doet met p-waarden, maar dit laat zien wat de waarden van de coëfficiënten zullen zijn,en Ridge regressie vermindert de waarden voor de variabelen die niet significant dichter bij 0 zijn, neemt het echter niet helemaal tot 0 of verwijdert de variabelen ook. Dit kan ook hieronder worden getoond als we de lijst met coëfficiënten in het model zien.

hier kunnen we zien dat de waarden van de coëfficiënten die de Ridge regressie, bijna maakte het dichter bij 0. Dit kan worden gezien uit de grafiek zoals hieronder getoond:-

vervolgens zullen we de lasso-regressie uitvoeren, die enkele variabelen die geen sterke voorspellende capaciteit hebben met de afhankelijke variabele zal uit nul zetten. We gebruiken dezelfde code als voorheen en veranderen alleen de waarde van alpha van 0 naar 1.

de resultaten die we krijgen zijn als volgt:-

hier kunnen we zien dat het veel waarden ingesteld op 0 in de lasso regressie, en er coëfficiënten tonen een .

dezelfde gegevens kunnen worden weergegeven in de grafiek vorm als volgt, die laat zien dat veel variabelen waarvan de waarden zijn ingesteld op 0.

Dit is een zeer fundamentele inleiding op een aantal van de benaderingen die kunnen worden genomen bij het kijken naar het verminderen van het aantal variabelen in het model. Men kan kijken naar PCA (Principal component analysis), evenals elastische netto benadering om verder te kijken naar het bevorderen van het model. Ook de werkelijke waarde van het model zal alleen worden getoond als we het model kunnen zien lopen op de testgegevens, die we niet hebben gezien en is uitgehouden.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.