Amarengo

Articles and news

gyors bemutató LASSO regresszió például

LASSO regresszió áll a legkevésbé abszolút zsugorodás és kiválasztási operátor. Az algoritmus a lineáris regresszió egy másik változata, akárcsak a gerinc regressziója. A lasso regressziót akkor használjuk, ha nagy számú prediktor változónk van.

áttekintés – Lasso regresszió

Lasso regresszió egy parsimonious modell, amely elvégzi az L1 szabályozást. Az L1 regularizáció a regressziós együtthatók abszolút nagyságával egyenértékű büntetést ad hozzá, és megpróbálja minimalizálni őket. A lasso egyenlete hasonló a gerinc regressziójához, és úgy néz ki, mint az alábbiakban.

 LS Obj + λ (sum of the absolute values of coefficients)

itt a cél a következő:
ha 6 = 0, akkor ugyanazokat az együtthatókat kapjuk, mint a lineáris regresszió
ha az összes együttható nagy mértékben változik, akkor az összes együttható nulla felé csökken

a két modell, a lasso és a ridge regresszió majdnem hasonlóak egymáshoz. A lasszóban azonban a nagy varianciáért felelős együtthatókat nullára konvertálják. Másrészt az együtthatók csak zsugorodnak, de a gerinc regressziójában soha nem lesznek nullák.

a Lasso regresszióanalízist a változók kiválasztására is használják, mivel a modell egyes változók együtthatóit nullára csökkenti.

mit jelent a változók nagy száma?

  1. a nagy szám itt azt jelenti, hogy a modell hajlamos a túlzott illeszkedésre. Elméletileg legalább tíz változó túlillesztési problémát okozhat.
  2. ha szembe számítási kihívások jelenléte miatt n változók száma. Bár a rendszerek mai feldolgozási teljesítménye miatt ez a helyzet ritkán fordul elő.

az alábbi ábra az OLS és a lasso regresszió összehasonlítását mutatja.

a lasszó nem túl jó a változók kezelésében, amelyek összefüggést mutatnak közöttük, így néha nagyon vad viselkedést mutathatnak.

a Lasso regressziós modell edzése

a lasso regressziós modell edzése pontosan megegyezik a gerinc regresszióéval. Meg kell határoznunk az optimális lambda értéket, majd ezt az értéket kell felhasználnunk a modell betanításához. Ennek eléréséhez használhatjuk ugyanazt a glmnet függvényt, és átadhatjuk aalpha = 1 argumentumot. Amikor áthaladunk a alpha = 0 – on, az glmnet() gerinc regressziót futtat, és amikor a alpha = 0.5 – en haladunk át, a glmnet egy másik típusú modellt futtat, amelyet rugalmas hálónak hívnak, és a gerinc és a lasso regresszió kombinációja.

  1. használjuk cv.glmnet() funkció azonosítani az optimális lambda érték
  2. kivonat a legjobb lambda és a legjobb modell
  3. újjáépíteni a modell segítségével glmnet() funkció
  4. használja megjósolni függvény megjósolni az értékeket a jövőbeli adatok

ebben a példában fogjuk használni swiss adatkészlet a termékenység előrejelzésére az 1888-as év társadalmi-gazdasági mutatói alapján.

Frissítve-a kódrészlet frissült néhány változó nevének kijavítására– 28/05/2020

# Output 0.3981072

ezt az értéket használva képezzük újra a lasso modellt.

végül kombináljuk az előre jelzett értékeket és a tényleges értékeket, hogy egymás mellett lássuk a két értéket, majd az R-négyzet képlettel ellenőrizhetjük a modell teljesítményét. Megjegyzés-ki kell számítania az R-négyzet értékeket mind a vonat, mind a teszt adatkészlet számára.

final <- cbind(y_var, pred)# Checking the first six obshead(final)

az R Négyzetképlet megosztása

az alábbiakban megadott függvény csak tájékoztató jellegű, és az adatkészlet alapján meg kell adnia a tényleges és előre jelzett értékeket.

actual <- test$actualpreds <- test$predictedrss <- sum((preds - actual) ^ 2)tss <- sum((actual - mean(actual)) ^ 2)rsq <- 1 - rss/tssrsq

a fontos változók listájának megszerzése

a fontos változók listájának megszerzéséhez csak meg kell vizsgálnunk a végső legjobb modell béta együtthatóit.

# Inspecting beta coefficientscoef(lasso_best)
# Output6 x 1 sparse Matrix of class "dgCMatrix" s0(Intercept) 66.5365304Agriculture -0.0489183Examination . Education -0.9523625Catholic 0.1188127Infant.Mortality 0.4994369

a modell azt mutatja, hogy a mezőgazdaság és az oktatás együtthatója nullára csökkent. Így három változó marad, nevezetesen: vizsga, katolikus és csecsemő.Mortalitás

ebben a fejezetben megtanultuk, hogyan kell felépíteni egy lasso regressziót ugyanazzal a glmnet csomaggal, amelyet a ridge regresszió felépítéséhez használtunk. Azt is láttuk, mi a különbség a gerinc és a lasszó között. A következő fejezetben megvitatjuk, hogyan lehet megjósolni egy dichotóm változót logisztikai regresszió segítségével.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.