Amarengo

Articles and news

Rask Tutorial PÅ Lasso Regresjon Med Eksempel

lasso regresjon står For Minst Absolutt Krymping Og Utvalg Operatør. Algoritmen er en annen variant av lineær regresjon, akkurat som ridge regresjon. Vi bruker lasso regresjon når vi har et stort antall prediktorvariabler.

Oversikt – Lasso Regresjon

Lasso regresjon er en parsimonious modell som utfører l1 regularisering. L1-regulariseringen legger til en straff som tilsvarer den absolutte størrelsen på regresjonskoeffisientene og prøver å minimere dem. Ligningen av lasso ligner ridge regresjon og ser ut som gitt nedenfor.

 LS Obj + λ (sum of the absolute values of coefficients)

her er målsettingen som følger:
hvis λ = 0, får vi de samme koeffisientene som lineær regresjon
hvis λ = varierer stort, krymper alle koeffisientene mot null

de to modellene, lasso og ridge regression, er nesten like. I lasso konverteres imidlertid koeffisientene som er ansvarlige for stor varians til null. På den annen side er koeffisientene bare krympet, men blir aldri gjort null i ryggregresjon.

Lasso regresjonsanalyse brukes også for variabelvalg da modellen pålegger koeffisienter for noen variabler å krympe mot null.

Hva betyr et stort antall variabler?

  1. det store tallet her betyr at modellen har en tendens til å over-fit. Teoretisk sett kan minst ti variabler føre til overfitting problem.
  2. når du møter beregningsutfordringer på grunn av tilstedeværelsen av n antall variabler. Selv om, gitt dagens prosessorkraft av systemer, oppstår denne situasjonen sjelden.

følgende diagram er den visuelle tolkningen som sammenligner OLS og lasso-regresjon.

LASSO er ikke veldig god til å håndtere variabler som viser en sammenheng mellom dem og dermed kan noen ganger vise veldig vill oppførsel.

Trening Lasso Regresjonsmodell

treningen av lasso regresjonsmodellen er nøyaktig den samme som for ridge regresjon. Vi må identifisere den optimale lambda-verdien og deretter bruke den verdien til å trene modellen. For å oppnå dette kan vi bruke samme glmnet funksjon og passere alpha = 1 argument. Når vi passerer alpha = 0, kjører glmnet() en ryggregresjon, og når vi passerer alpha = 0.5, kjører glmnet en annen type modell som kalles elastisk nett og er en kombinasjon av rygg og lasso regresjon.

  1. vi bruker cv.glmnet() funksjon for å identifisere den optimale lambda-verdien
  2. Pakk ut den beste lambda og beste modellen
  3. Gjenoppbygg modellen ved hjelp av glmnet() funksjon
  4. bruk predict funksjon for å forutsi verdiene på fremtidige data

For dette eksemplet vil vi bruke swiss datasett for å forutsi fruktbarhet basert på sosioøkonomiske indikatorer for året 1888.

Oppdatert-Kodebiten ble oppdatert for å korrigere noen variabelnavn– 28/05/2020

# Output 0.3981072

Bruk denne verdien, la oss trene lasso-modellen igjen.

til Slutt kombinerer vi de forutsagte verdiene og de faktiske verdiene for å se de to verdiene side om side, og deretter kan Du bruke r-Kvadrert formel for å sjekke modellens ytelse. Merk – du må beregne r-Kvadrerte verdier for både tog og test datasettet.

final <- cbind(y_var, pred)# Checking the first six obshead(final)

Deling av r-Kvadratformelen

funksjonen nedenfor er bare veiledende, og du må oppgi de faktiske og forventede verdiene basert på datasettet ditt.

actual <- test$actualpreds <- test$predictedrss <- sum((preds - actual) ^ 2)tss <- sum((actual - mean(actual)) ^ 2)rsq <- 1 - rss/tssrsq

Få listen over viktige variabler

for å få listen over viktige variabler, trenger vi bare å undersøke beta-koeffisientene til den endelige beste modellen.

# Inspecting beta coefficientscoef(lasso_best)
# Output6 x 1 sparse Matrix of class "dgCMatrix" s0(Intercept) 66.5365304Agriculture -0.0489183Examination . Education -0.9523625Catholic 0.1188127Infant.Mortality 0.4994369

modellen indikerer at Koeffisientene For Landbruk og Utdanning har blitt krympet til null. Dermed sitter vi igjen med tre variabler, nemlig; Undersøkelse, Katolsk, Og Spedbarn.Dødelighet

i dette kapitlet lærte vi å bygge en lasso-regresjon ved hjelp av samme glmnet-pakke, som vi pleide å bygge ridge-regresjonen. Vi så også hva som er forskjellen mellom åsen og lasso er. I neste kapittel vil vi diskutere hvordan å forutsi en dikotom variabel ved hjelp av logistisk regresjon.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert.