Amarengo

Articles and news

metody regularyzacji regresji logistycznej przy użyciu regresji grzbietowej i Lasso z danymi ICU dla WiDS datathon 2020

dane są częścią WIDS datathon 2020.

odczytam dane, a następnie przyjrzę się ich wymiarom, a następnie spojrzę również na statystyki podsumowujące, ile wartości jest null dla zmiennych.

jest 186 kolumn i 91713 wierszy. Przeprowadzimy analizę regresji logistycznej na danych, ale najpierw przeprowadzimy kilka statystyk podsumowujących i zobaczymy, jak wyglądają Dane i ile wierszy jest NULL, a

niektóre kolumny cytują wiele wierszy null, więc usuniemy je z analizy, ponieważ wiele wierszy ma prawie ponad 70 000 wierszy jako NULL.

jednak użyjemy uproszczonej metody i włączymy do modelu regresji logistycznej, w którym uwzględnimy tylko dane w modelu, jeśli jest mniej niż 3000 wartości zerowych, jednak można również użyć bardziej wyrafinowanych podejść, takich jak Mediana, średnia wymiany wartości, a także wymiana oparta na regresji. To podejście jest naiwne i uproszczone, ale do naszej wstępnej analizy użyjemy tego podejścia, pod koniec przykładów pokażę również, w jaki sposób można użyć metod regularyzacji, takich jak regresja grzbietu, regresja Lasso i elastyczna siatka, aby użyć również do regularyzacji, która pomaga w zmniejszeniu liczby zmiennych lub ich wpływu.

uruchomimy model ze zmiennymi, które mają nie więcej niż 3000 wartości null, więc użyjemy tych zmiennych w naszym początkowym uruchomieniu modelu.

uruchomienie tego modelu daje te wyniki, a po wstępnym spojrzeniu widzimy, że istnieje dość wiele zmiennych, które nie są znaczące na poziomie 0.001 i nie mają w nich znaczenia, jak pokazano poniżej. Wyniki iteracji Fishera są również dość wysokie i wynoszą 11, ten rdzeń powinien być w zakresie 6-8 i pokazuje, że model nie jest prawidłowy. Obliczymy również Mcfadden R2 kwadrat dla modelu logistycznego i pokazuje wartość 0.5478738, jednak takiej wartości nie można przyjmować osobno, ponieważ w modelu jest dość wiele wartości, które nie są znaczące, a także wiemy, że im więcej wartości znajduje się w modelu, R kwadrat będzie wyższy niezależnie od tego, czy model jest solidny, poprawny, czy nie.

obliczenie R do kwadratu McFaddena

następnie ponownie uruchomimy model, ale usuniemy zmienne, które nie są znaczące przy wartości p w niektórych niższych zakresach, a następnie ponownie uruchomimy model z pozostałymi zmiennymi i przewidujemy skuteczność modelu. Są to zmienne, które zostały usunięte z modelu i uruchomiliśmy model ponownie, z pozostałymi funkcjami. Takie podejście ma charakter ręczny i jest uproszczone, możemy również użyć kroku do przodu lub kroku do tyłu usuwania, jak również.

zmienne usunięte z modelu, ze względu na bardzo niskie lub brak znaczących wyników wartości p, były następujące:-

pochodzenie, płeć,wzrost,icu_id,apache_2_diagnoza,apache_3j_diagnoza, apache_post_operative,gcs_verbal_apache,readmission_status
heart_rate_apache, temp_apache d1_diasbp,max-d1_diasbp_min
intubated_apache,d1_mbp_max, d1_mbp_min, d1_mbp_noninvasive_max
d1_mbp_noninvasive_min, d1_resprate_max, d1_resprate_min
d1_sysbp_max, d1_sysbp_min, d1_sysbp_noninvasive_max, d1_sysbp_noninvasive_min, h1_sysbp_max, h1_sysbp_min, AIDS, chłoniak

nowy model wygląda następująco:-

w Nowym przypadku widzimy, że wartości naszego Modelu p znacznie wzrosły dla wielu zmiennych, jednak iteracje Fishera nadal wynoszą 11, co jest nieco wysokie i bardzo wysokie wartości więcej niż idealny zakres od 6 do 8 oznacza, że model może nie być zbieżny. A1C jest taki sam jak ostatni model, więc między tym a poprzednim modelem wybierzemy ten model zamiast innego modelu ze względu na wartości p, ale w żadnym razie nie jest to idealny model, musimy zrobić więcej pracy z regularyzacją, aby ten model był bardziej efektywny. Thee Mcfadden R kwadrat jest prawie w tym samym zakresie i pokazuje wartość 0.5359914.

następnie przeprowadzimy regresję grzbietu na zmiennych. Użyjemy kilku dodatkowych bibliotek, takich jak wymienione poniżej glmnet, glmUtils, wrapr, a także zachowamy zmienne niezależne i zależne, jak z ostatniego modelu.

tutaj ustawimy wzór, a następnie przeprowadzimy regresję grzbietu.

oto wyniki regresji grzbietu, które otrzymaliśmy.

regresja grzbietowa, nie daje nam interpretacji, jak regularny model regresji logistycznej robi z wartościami p, jednak pokazuje to, jakie będą wartości współczynników, a regresja grzbietowa zmniejsza wartości dla zmiennych, które nie są znaczące bliżej 0, jednak nie bierze go aż do 0 lub usuwa zmienne, jak również. Można to również pokazać poniżej, gdy zobaczymy listę współczynników w modelu.

tutaj widzimy, że wartości współczynników, że regresja grzbietu, prawie zbliżył się do 0. Można to zobaczyć na poniższym wykresie:-

następnie uruchomimy regresję Lasso, która zeruje niektóre zmienne, które nie mają silnej zdolności predykcyjnej ze zmienną zależną. Użyjemy tego samego kodu co poprzednio i zmienimy tylko wartość Alfy z 0 Na 1.

wyniki, które otrzymujemy są następujące:-

tutaj widzimy, że ustawia wiele wartości na 0 w regresji Lasso, a współczynniki pokazują a .

te same dane można przedstawić w postaci wykresu w następujący sposób, który pokazuje, że wiele zmiennych, których wartości zostały ustawione na 0.

jest to bardzo podstawowe wprowadzenie do niektórych podejść, które można zastosować przy zmniejszaniu liczby zmiennych w modelu. Można przyjrzeć się PCA (Principal component analysis), a także podejściu elastycznej sieci, aby dalej przyjrzeć się rozwojowi modelu. Również prawdziwa wartość modelu zostanie pokazana tylko wtedy, gdy będziemy mogli zobaczyć model działający na danych testowych, których nie widzieliśmy i które zostały wstrzymane.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.