Amarengo

Articles and news

Tutorial Rápido Sobre Regresión de LAZO Con Ejemplo

Regresión de LAZO significa Operador de Selección y Contracción Mínima Absoluta. El algoritmo es otra variación de la regresión lineal, al igual que la regresión de cresta. Usamos regresión de lazo cuando tenemos un gran número de variables predictoras.

Descripción general-Regresión de lazo

La regresión de lazo es un modelo parsimonioso que realiza la regularización L1. La regularización L1 añade una penalización equivalente a la magnitud absoluta de los coeficientes de regresión y trata de minimizarlos. La ecuación de lazo es similar a la regresión de cresta y se ve como se muestra a continuación.

 LS Obj + λ (sum of the absolute values of coefficients)

Aquí el objetivo es el siguiente:
Si λ = 0, Obtenemos los mismos coeficientes que la regresión lineal
Si λ = vary large, Todos los coeficientes se reducen hacia cero

Los dos modelos, el lazo y la regresión de cresta, son casi similares entre sí. Sin embargo, en lazo, los coeficientes que son responsables de la gran varianza se convierten a cero. Por otro lado, los coeficientes solo se reducen, pero nunca se hacen cero en la regresión de crestas.

El análisis de regresión Lazo también se utiliza para la selección de variables, ya que el modelo impone coeficientes de algunas variables para encogerse hacia cero.

¿Qué significa un gran número de variables?

  1. El gran número aquí significa que el modelo tiende a sobre-ajuste. Teóricamente, un mínimo de diez variables puede causar un problema de sobreajuste.
  2. Cuando se enfrentan a desafíos computacionales debido a la presencia de n número de variables. Aunque, dada la potencia de procesamiento de los sistemas de hoy en día, esta situación se presenta rara vez.

El siguiente diagrama es la interpretación visual que compara la regresión OLS y el lazo.

El LAZO no es muy bueno en el manejo de variables que muestran una correlación entre ellas y, por lo tanto, a veces puede mostrar un comportamiento muy salvaje.

Modelo de regresión de lazo de entrenamiento

El entrenamiento del modelo de regresión de lazo es exactamente el mismo que el de regresión de cresta. Necesitamos identificar el valor óptimo de lambda y luego usar ese valor para entrenar el modelo. Para lograr esto, podemos usar la misma función glmnet y pasar el argumentoalpha = 1. Cuando pasamos alpha = 0, glmnet() ejecuta una regresión de cresta, y cuando pasamos alpha = 0.5, la glmnet ejecuta otro tipo de modelo que se llama red elástica y es una combinación de regresión de cresta y lazo.

  1. Utilizamos cv.glmnet() función para identificar el valor óptimo de lambda
  2. Extraer el mejor lambda y el mejor modelo
  3. Reconstruir el modelo utilizando glmnet() función
  4. Usar la función predecir para predecir los valores en datos futuros

Para este ejemplo, utilizaremos swiss conjunto de datos para predecir la fertilidad basado en Indicadores socioeconómicos para el año 1888.

Actualizado: se actualizó el fragmento de código para corregir algunos nombres de variables– 28/05/2020

# Output 0.3981072

Usando este valor, entrenemos de nuevo el modelo lazo.

Finalmente, combinamos los valores predichos y los valores reales para ver los dos valores uno al lado del otro, y luego puede usar la fórmula R-Cuadrado para verificar el rendimiento del modelo. Nota: debe calcular los valores de R cuadrado para el conjunto de datos de tren y de prueba.

final <- cbind(y_var, pred)# Checking the first six obshead(final)

Compartir la fórmula R Cuadrada

La función que se proporciona a continuación es solo indicativa, y debe proporcionar los valores reales y previstos en función de su conjunto de datos.

actual <- test$actualpreds <- test$predictedrss <- sum((preds - actual) ^ 2)tss <- sum((actual - mean(actual)) ^ 2)rsq <- 1 - rss/tssrsq

Obtener la lista de variables importantes

Para obtener la lista de variables importantes, solo necesitamos investigar los coeficientes beta del mejor modelo final.

# Inspecting beta coefficientscoef(lasso_best)
# Output6 x 1 sparse Matrix of class "dgCMatrix" s0(Intercept) 66.5365304Agriculture -0.0489183Examination . Education -0.9523625Catholic 0.1188127Infant.Mortality 0.4994369

El modelo indica que los coeficientes de Agricultura y Educación se han reducido a cero. Por lo tanto, nos quedan tres variables, a saber: Examen, Católico e Infantil.Mortalidad

En este capítulo, aprendimos a construir una regresión de lazo usando el mismo paquete glmnet, que usamos para construir la regresión de cresta. También vimos cuál es la diferencia entre la cresta y el lazo. En el siguiente capítulo, discutiremos cómo predecir una variable dicotómica usando regresión logística.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.