Amarengo

Articles and news

Approcci di regolarizzazione per la regressione logistica utilizzando la regressione Ridge e Lazo con dati ICU per WiDS datathon 2020

I dati fanno parte del WIDS datathon 2020.

Leggerò i dati, quindi guarderò le sue dimensioni e poi guarderò anche le statistiche di riepilogo, quanti valori sono nulli per le variabili.

Ci sono 186 colonne e 91713 righe. Eseguiremo l’analisi di regressione logistica sui dati, ma prima eseguiremo alcune statistiche di riepilogo e vedremo come appaiono i dati e quante righe sono null e

Alcune delle colonne hanno virgolette molte righe null, quindi rimuoveremo queste dall’analisi poiché molte righe hanno quasi più di 70.000 righe come null.

Tuttavia useremo un metodo semplicistico e includeremo nel modello di regressione logistica in cui includeremo solo i dati nel modello, se ci sono meno di 3000 valori nulli, tuttavia potrebbero essere utilizzati anche approcci più sofisticati, come mediana, media di sostituzione dei valori, nonché sostituzione basata sulla regressione. Questo approccio è ingenuo e semplicistico, ma per la nostra analisi iniziale useremo questo approccio, negli esempi mostrerò anche come si possono usare approcci di regolarizzazione come la regressione della cresta, la regressione del Lazo e la rete elastica da usare anche per la regolarizzazione che aiuta a ridurre il numero di variabili o il loro impatto.

Eseguiremo il modello con le variabili che non hanno più di 3000 valori null, quindi useremo queste variabili nella nostra esecuzione iniziale del modello.

l’Esecuzione di questo modello, dà questi risultati, e solo iniziale, cercando, possiamo vedere che ci sono molte variabili che non sono significativi a 0,001 livello e non hanno alcun significato segno in loro, come mostrato di seguito. Anche i punteggi di iterazione di Fisher sono piuttosto alti ed è 11, questo core dovrebbe essere nell’intervallo 6-8 e mostra che il modello non è valido. Calcoleremo anche il Mcfadden R2 al quadrato per il modello logistico e mostra un valore di 0.5478738, tuttavia tale valore non può essere preso isolatamente, poiché ci sono molti valori nel modello che non sono significativi, e sappiamo anche che più valori sono nel modello, R al quadrato sarà più alto indipendentemente dal fatto che il modello sia robusto o valido o meno.

Mcfadden R squared calcolo

poi ci si ri-eseguire il modello, ma rimuovere le variabili che non sono significative, al valore di p in alcune zone inferiori, per poi eseguire il modello nuovo con le rimanenti variabili e prevedere il efficacia del modello. Queste sono le variabili sono state rimosse dal modello e abbiamo eseguito di nuovo il modello, con le caratteristiche rimanenti. Questo approccio è manuale in natura ed è semplicistico, possiamo anche usare passo avanti o passo indietro rimozione pure.

Le variabili rimosse dal modello, a causa di punteggi p molto bassi o non significativi, erano le seguenti:-

etnia, sesso,altezza,icu_id,apache_2_diagnosis,apache_3j_diagnosis, apache_post_operative,gcs_verbal_apache,readmission_status
heart_rate_apache, temp_apache d1_diasbp,max -d1_diasbp_min
intubated_apache,d1_mbp_max, d1_mbp_min, d1_mbp_noninvasive_max
d1_mbp_noninvasive_min, d1_resprate_max, d1_resprate_min
d1_sysbp_max, d1_sysbp_min, d1_sysbp_noninvasive_max, d1_sysbp_noninvasive_min, h1_sysbp_max, h1_sysbp_min, l’aids, il linfoma

Il nuovo modello è come indicato di seguito:-

Nel nuovo caso possiamo vedere che il nostro modello i valori di p sono aumentati un bel po ‘ per molte delle variabili, tuttavia il Pescatore iterazioni sono ancora 11 che è leggermente alto e molto alto valori oltre la linea ideale tra 6 e 8 significa che il modello potrebbe non avere convergenti. A1C è lo stesso dell’ultimo modello, quindi tra questo e il modello precedente, selezioneremo questo modello rispetto all’altro modello a causa dei valori p, ma in nessun modo questo è un modello ideale, dobbiamo fare molto più lavoro con la regolarizzazione per rendere questo modello un modello più efficace. Te Mcfadden R al quadrato è quasi nello stesso intervallo ancora e mostra il valore di 0.5359914.

la Prossima si correrà la Cresta di regressione delle variabili. Useremo alcune librerie aggiuntive come elencate di seguito glmnet, glmUtils, wrapr , e manterremo anche le variabili indipendenti e dipendenti, come dall’ultimo modello.

Qui imposteremo la formula e poi eseguiremo la regressione della cresta.

Questi sono i risultati della regressione della Cresta, che abbiamo ricevuto.

Ridge regression, non ci darà una interpretazione come il normale modello di regressione logistica con valori di p, però questo dimostra che sono i valori dei coefficienti, e Ridge regression riduce i valori per le variabili che non sono significative e più vicino a 0, tuttavia, non prendere tutto il modo a 0 o rimuovere le variabili. Questo può essere mostrato anche sotto quando vediamo l’elenco dei coefficienti nel modello.

Qui possiamo vedere che i valori dei coefficienti che la regressione di Ridge, quasi fatta più vicino a 0. Questo può essere visto dal grafico, come mostrato di seguito:-

potremo eseguire il Lasso di regressione, che si azzera alcune variabili che non hanno una forte capacità predittiva con la variabile dipendente. Useremo lo stesso codice di prima e cambieremo solo il valore di alpha da 0 a 1.

I risultati che otteniamo sono come segue:-

Qui possiamo vedere che ha molti valori a 0 nel Lasso di regressione, e ci coefficienti di mostrare un .

Gli stessi dati possono essere visualizzati in forma grafica, come segue, il che dimostra che molte variabili i cui valori sono stati impostati a 0.

Questa è un’introduzione molto semplice ad alcuni degli approcci che potrebbero essere adottati quando si considera la riduzione del numero di variabili nel modello. Si può guardare a PCA (Principal component analysis), così come l’approccio elastico netto per guardare ulteriormente avanzare il modello. Anche il vero valore del modello verrà mostrato solo quando possiamo vedere il modello in esecuzione sui dati del test, che non abbiamo visto ed è stato tenuto fuori.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.