Amarengo

Articles and news

예와 올가미 회귀에 대한 빠른 자습서

올가미 회귀는 최소 절대 수축 및 선택 연산자를 의미합니다. 이 알고리즘은 능선 회귀와 같은 선형 회귀의 또 다른 변형입니다. 우리는 많은 수의 예측 변수가있을 때 올가미 회귀를 사용합니다.

개요–올가미 회귀

올가미 회귀는 엘 1 정규화를 수행하는 양심적 모델입니다. 엘 1 정규화는 회귀 계수의 절대 크기에 해당하는 페널티를 추가하고 최소화를 시도합니다. 올가미의 방정식은 능선 회귀와 유사하며 아래에 주어진 것처럼 보입니다.

 LS Obj + λ (sum of the absolute values of coefficients)

여기에 목적은 다음과 같습니다:
경우,우리는 선형 회귀와 같은 계수를 얻을
경우,모든 계수는 제로

으로 축소된다 두 모델,올가미와 능선 회귀는 서로 거의 유사하다. 그러나 올가미에서는 큰 분산을 담당하는 계수가 0 으로 변환됩니다. 반면에 계수는 축소될 뿐 능선 회귀분석에서는 0 이 되지 않습니다.

올가미 회귀 분석은 모델이 일부 변수의 계수를 0 으로 축소하도록 부과하므로 변수 선택에도 사용됩니다.

많은 수의 변수는 무엇을 의미합니까?

  1. 여기서 큰 숫자는 모델이 과도하게 맞는 경향이 있음을 의미합니다. 이론적으로 최소 10 개의 변수가 과적합 문제를 일으킬 수 있습니다.
  2. 때 당신은 얼굴 전산 도전의 존재로 인해의 n 번호 변수입니다. 오늘날의 시스템 처리 능력을 감안할 때 이러한 상황은 거의 발생하지 않습니다.

다음 다이어그램은 올가미 회귀와 올가미 회귀를 비교하는 시각적 해석입니다.

올가미는 그들 사이의 상관 관계를 보여주는 변수를 처리하는 데별로 좋지 않으므로 때로는 매우 거친 행동을 보일 수 있습니다.

올가미 회귀 모델 훈련

올가미 회귀 모델의 훈련은 능선 회귀 모델의 훈련과 정확히 동일합니다. 최적의 람다 값을 식별 한 다음 해당 값을 사용하여 모델을 학습해야합니다. 이를 위해 동일한glmnet함수를 사용하고alpha = 1인수를 전달할 수 있습니다. 우리가 통과 할 때alpha = 0,glmnet()능선 회귀를 실행하고,우리가 통과 할 때alpha = 0.5은 탄성 그물이라고 불리는 다른 종류의 모델을 실행하며 능선과 올가미 회귀의 조합입니다.

  1. cv.glmnet()함수를 사용하여 최적의 람다 값 식별
  2. 최고의 람다 및 최상의 모델 추출
  3. glmnet()함수
  4. 예측 함수를 사용하여 향후 데이터의 값을 예측

이 예에서는

를 사용합니다.6808>1888 년의 사회 경제적 지표를 기반으로 출산율을 예측하는 데이터 세트.

업데이트-일부 변수 이름을 수정하기 위해 코드 조각이 업데이트되었습니다–– 28/05/2020

# Output 0.3981072

이 값을 사용하여 올가미 모델을 다시 학습하겠습니다.

마지막으로 예측 값과 실제 값을 결합하여 두 값을 나란히 확인한 다음 아르 자형 제곱 공식을 사용하여 모델 성능을 확인할 수 있습니다. 참고-학습 데이터 집합과 테스트 데이터 집합 모두에 대한 아르 자형 제곱 값을 계산해야 합니다.

final <- cbind(y_var, pred)# Checking the first six obshead(final)

아르 자형 제곱 수식 공유

아래에 제공된 함수는 단지 지표 일 뿐이며 데이터 세트를 기반으로 실제 값과 예측 값을 제공해야합니다.

actual <- test$actualpreds <- test$predictedrss <- sum((preds - actual) ^ 2)tss <- sum((actual - mean(actual)) ^ 2)rsq <- 1 - rss/tssrsq

중요한 변수 목록 얻기

중요한 변수 목록을 얻으려면 최종 최상의 모델의 베타 계수를 조사하면됩니다.

# Inspecting beta coefficientscoef(lasso_best)
# Output6 x 1 sparse Matrix of class "dgCMatrix" s0(Intercept) 66.5365304Agriculture -0.0489183Examination . Education -0.9523625Catholic 0.1188127Infant.Mortality 0.4994369

이 모델은 농업과 교육의 계수가 0 으로 축소되었음을 나타냅니다. 따라서 우리는 세 가지 변수,즉;검사,가톨릭,유아와 함께 남아 있습니다.사망률

이 장에서는 우리가 능선 회귀를 구축하는 데 사용되는 동일한 글 엠넷 패키지를 사용하여 올가미 회귀를 구축하는 방법을 배웠습니다. 우리는 또한 능선과 올가미의 차이가 무엇인지 보았다. 다음 장에서는 로지스틱 회귀를 사용하여 이분법 변수를 예측하는 방법에 대해 설명합니다.

답글 남기기

이메일 주소는 공개되지 않습니다.