Amarengo

Articles and news

rychlý návod na laso regrese s příkladem

laso regrese je zkratka pro nejmenší absolutní smrštění a výběr operátora. Algoritmus je další variantou lineární regrese, stejně jako regrese hřebene. Používáme laso regresi, když máme velký počet prediktorových proměnných.

přehled-Lasso regrese

Lasso regrese je parsimoniální model, který provádí L1 regularizaci. Regularizace L1 přidává trest odpovídající absolutní velikosti regresních koeficientů a snaží se je minimalizovat. Rovnice laso je podobná regresi hřebene a vypadá, jak je uvedeno níže.

 LS Obj + λ (sum of the absolute values of coefficients)

zde je cíl následující:
Pokud λ = 0, dostaneme stejné koeficienty jako lineární regrese
Pokud λ = měnit Velké, všechny koeficienty se zmenšují směrem k nule

dva modely, laso a hřebenová regrese,jsou si téměř podobné. Nicméně, v laso, koeficienty, které jsou zodpovědné za velký rozptyl jsou převedeny na nulu. Na druhou stranu, koeficienty jsou pouze zmenšeny, ale v regresi hřebene nejsou nikdy nulové.

laso regresní analýza se také používá pro výběr proměnných, protože model ukládá koeficienty některých proměnných, aby se zmenšily směrem k nule.

co znamená velké množství proměnných?

  1. velké číslo zde znamená, že model má sklon k nadměrnému přizpůsobení. Teoreticky může minimálně deset proměnných způsobit problém s nadměrným vybavením.
  2. když čelíte výpočetním výzvám kvůli přítomnosti n počtu proměnných. Ačkoli, vzhledem k dnešní výpočetní síle systémů, tato situace vzniká zřídka.

následující diagram je vizuální interpretace porovnávající OLS a lasso regresi.

laso není příliš dobré při manipulaci s proměnnými, které vykazují korelaci mezi nimi, a proto mohou někdy vykazovat velmi divoké chování.

tréninkový laso regresní Model

trénink laso regresního modelu je přesně stejný jako u hřebenové regrese. Musíme určit optimální hodnotu lambda a pak tuto hodnotu použít k trénování modelu. K dosažení tohoto cíle můžeme použít stejnou funkci glmnet a předat argumentalpha = 1. Když projdeme alpha = 0, glmnet() spustí regresi hřebene a když projdeme alpha = 0.5, glmnet spustí jiný druh modelu, který se nazývá elastická síť a je kombinací regrese hřebene a lasa.

  1. používáme funkci cv.glmnet() k identifikaci optimální hodnoty lambda
  2. extrahujte nejlepší lambda a nejlepší model
  3. obnovte model pomocí funkce glmnet()
  4. použijte funkci predict k předpovědi hodnot na budoucích datech

v tomto příkladu použijeme swiss dataset k předpovědi plodnosti na základě socioekonomických ukazatelů pro rok 1888.

Aktualizováno-fragment kódu byl aktualizován, aby opravil některé názvy proměnných– 28/05/2020

# Output 0.3981072

pomocí této hodnoty znovu trénujme model laso.

nakonec kombinujeme předpokládané hodnoty a skutečné hodnoty, abychom viděli dvě hodnoty vedle sebe, a pak můžete použít vzorec R-na druhou pro kontrolu výkonu modelu. Poznámka-musíte vypočítat hodnoty R-kvadrát pro datový soubor vlaku i testu.

final <- cbind(y_var, pred)# Checking the first six obshead(final)

sdílení vzorce R na druhou

níže uvedená funkce je pouze orientační a musíte poskytnout skutečné a předpokládané hodnoty založené na datovém souboru.

actual <- test$actualpreds <- test$predictedrss <- sum((preds - actual) ^ 2)tss <- sum((actual - mean(actual)) ^ 2)rsq <- 1 - rss/tssrsq

získání seznamu důležitých proměnných

Chcete-li získat seznam důležitých proměnných, stačí prozkoumat beta koeficienty konečného nejlepšího modelu.

# Inspecting beta coefficientscoef(lasso_best)
# Output6 x 1 sparse Matrix of class "dgCMatrix" s0(Intercept) 66.5365304Agriculture -0.0489183Examination . Education -0.9523625Catholic 0.1188127Infant.Mortality 0.4994369

model ukazuje, že koeficienty zemědělství a vzdělávání byly sníženy na nulu. Zbývají nám tedy tři proměnné, a to; zkouška, katolík, a kojenec.Úmrtnost

v této kapitole jsme se naučili, jak vytvořit laso regresi pomocí stejného balíčku glmnet, který jsme použili k vytvoření ridge regrese. Také jsme viděli, jaký je rozdíl mezi hřebenem a lasem. V další kapitole budeme diskutovat o tom, jak předpovědět dichotomickou proměnnou pomocí logistické regrese.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.