Amarengo

Articles and news

Abordajes de regularización para Regresión Logística utilizando Regresión de Cresta y Lazo con datos de UCI para la datathon WiDS 2020

Los datos forman parte de la datathon WIDS 2020.

Leeré los datos, y luego miraré sus dimensiones, y luego también miraré las estadísticas de resumen, cuántos valores son nulos para las variables.

Hay 186 columnas y 91713 filas. Ejecutaremos análisis de regresión logística sobre los datos, pero primero ejecutaremos algunas estadísticas de resumen y veremos cómo se ven los datos y cuántas filas son nulos y

Algunas de las columnas tienen muchas filas nulas, por lo que eliminaremos estas del análisis, ya que muchas filas tienen casi más de 70,000 filas como nulos.

Sin embargo, usaremos un método simplista e incluiremos en el modelo de regresión logística donde solo incluiremos los datos en el modelo, si hay menos de 3000 valores nulos, sin embargo, también se podrían usar enfoques más sofisticados, como la mediana, el reemplazo de la media de valores, así como el reemplazo basado en regresión. Este enfoque es ingenuo y simplista, pero para nuestro análisis inicial utilizaremos este enfoque, al final de los ejemplos también mostraré cómo se pueden usar enfoques de regularización como la regresión de Cresta, la Regresión de Lazo y la Red Elástica para usar también para la regularización, lo que ayuda a reducir el número de variables o sus impactos.

Ejecutaremos el modelo con las variables que no tengan más de 3000 valores nulos, por lo que usaremos estas variables en nuestra ejecución inicial del modelo.

Al ejecutar este modelo, se obtienen estos resultados, y con solo mirar inicialmente podemos ver que hay muchas variables que no son significativas en el nivel 0.001 y no tienen ningún signo de significación en ellas, como se muestra a continuación. Las puntuaciones de iteración de Fisher también son bastante altas y son 11, este núcleo debe estar en el rango de 6-8 y muestra que el modelo no es válido. También calcularemos el Mcfadden R2 cuadrado para el modelo logístico y muestra un valor de 0.5478738, sin embargo, tal valor no se puede tomar de forma aislada, ya que hay muchos valores en el modelo que no son significativos, y también sabemos que cuantos más valores haya en el modelo, la R cuadrada será mayor independientemente del hecho de que el modelo sea robusto o válido o no.

Mcfadden R cuadrado de cálculo

a continuación vamos a volver a ejecutar el modelo, pero eliminar las variables que no son significativas en el valor-p en algunos de los rangos más bajos y se procederá a ejecutar el modelo de nuevo con el resto de las variables y predecir el eficacia del modelo. Estas son las variables que se eliminaron del modelo y ejecutamos el modelo de nuevo, con las características restantes. Este enfoque es de naturaleza manual y es simplista, también podemos usar la eliminación paso adelante o paso atrás.

Las variables eliminadas del modelo, debido a puntajes de valor p muy bajos o no significativos, fueron las siguientes:-

etnia, género,altura,icu_id,apache_2_diagnosis,apache_3j_diagnosis, apache_post_operative,gcs_verbal_apache,readmission_status
heart_rate_apache, temp_apache d1_diasbp,max-d1_diasbp_min
intubated_apache,d1_mbp_max, d1_mbp_min, d1_mbp_noninvasive_max
d1_mbp_noninvasive_min, d1_resprate_max, d1_resprate_min
d1_sysbp_max, d1_sysbp_min, d1_sysbp_noninvasive_max, d1_sysbp_noninvasive_min, h1_sysbp_max, h1_sysbp_min, sida, linfoma

El nuevo modelo es el siguiente:-

En el nuevo caso, podemos ver que los valores de nuestro modelo p han aumentado bastante para muchas de las variables, sin embargo, las iteraciones de Fisher siguen siendo 11, lo que es ligeramente alto y valores muy altos más que el rango ideal entre 6 y 8 significa que el modelo podría no haber convergido. A1C es el mismo que el último modelo, por lo que entre este y el modelo anterior, seleccionaremos este modelo sobre el otro modelo debido a los valores de p, pero de ninguna manera este es un modelo ideal, necesitamos hacer bastante más trabajo con la regularización para hacer de este modelo un modelo más efectivo. El Mcfadden R cuadrado está casi en el mismo rango y muestra el valor de 0.5359914.

a continuación vamos a ejecutar la Cresta de regresión sobre las variables. Usaremos algunas bibliotecas adicionales como glmnet, glmUtils, wrapr, y también mantendremos las variables independientes y dependientes, como las del último modelo.

Aquí vamos a establecer la fórmula y, a continuación, vamos a ejecutar la regresión Ridge.

Estos son los resultados de la regresión Ridge, que hemos recibido.

Regresión de cresta, no nos da interpretación como el modelo de regresión logística regular lo hace con valores de p, sin embargo, esto muestra cuáles serán los valores de los coeficientes, y la regresión de cresta reduce los valores para las variables que no son significativas más cercanas a 0, sin embargo, no lo lleva hasta 0 o elimina las variables también. Esto se puede mostrar también a continuación cuando vemos la lista de coeficientes en el modelo.

Aquí podemos ver que los valores de los coeficientes de la regresión Ridge, casi lo más cercano a 0. Esto se puede ver en el gráfico que se muestra a continuación:-

A continuación, ejecutaremos la regresión Lazo, que eliminará algunas variables que no tienen una fuerte capacidad predictiva con la variable dependiente. Usaremos el mismo código que antes y solo cambiaremos el valor de alfa de 0 a 1.

Los resultados que obtenemos son como sigue:-

Aquí podemos ver que establecer muchos de los valores a 0 en el Lazo de regresión, y allí los coeficientes de mostrar una .

Los mismos datos pueden ser mostrados en el gráfico de la siguiente manera, lo que muestra que muchas de las variables cuyos valores se han ajustado a 0.

Esta es una introducción muy básica a algunos de los enfoques que podrían adoptarse cuando se busca reducir el número de variables en el modelo. Se puede ver el PCA (Análisis de componentes principales), así como el enfoque de red elástica para seguir avanzando en el modelo. Además, el valor real del modelo solo se mostrará cuando podamos ver el modelo ejecutándose en los datos de prueba, que no hemos visto y que se ha mantenido.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.