올가미 회귀는 최소 절대 수축 및 선택 연산자를 의미합니다. 이 알고리즘은 능선 회귀와 같은 선형 회귀의 또 다른 변형입니다. 우리는 많은 수의 예측 변수가있을 때 올가미 회귀를 사용합니다.
개요–올가미 회귀
올가미 회귀는 엘 1 정규화를 수행하는 양심적 모델입니다. 엘 1 정규화는 회귀 계수의 절대 크기에 해당하는 페널티를 추가하고 최소화를 시도합니다. 올가미의 방정식은 능선 회귀와 유사하며 아래에 주어진 것처럼 보입니다.
LS Obj + λ (sum of the absolute values of coefficients)
여기에 목적은 다음과 같습니다:
경우,우리는 선형 회귀와 같은 계수를 얻을
경우,모든 계수는 제로
으로 축소된다 두 모델,올가미와 능선 회귀는 서로 거의 유사하다. 그러나 올가미에서는 큰 분산을 담당하는 계수가 0 으로 변환됩니다. 반면에 계수는 축소될 뿐 능선 회귀분석에서는 0 이 되지 않습니다.
올가미 회귀 분석은 모델이 일부 변수의 계수를 0 으로 축소하도록 부과하므로 변수 선택에도 사용됩니다.
많은 수의 변수는 무엇을 의미합니까?
- 여기서 큰 숫자는 모델이 과도하게 맞는 경향이 있음을 의미합니다. 이론적으로 최소 10 개의 변수가 과적합 문제를 일으킬 수 있습니다.
- 때 당신은 얼굴 전산 도전의 존재로 인해의 n 번호 변수입니다. 오늘날의 시스템 처리 능력을 감안할 때 이러한 상황은 거의 발생하지 않습니다.
다음 다이어그램은 올가미 회귀와 올가미 회귀를 비교하는 시각적 해석입니다.

올가미는 그들 사이의 상관 관계를 보여주는 변수를 처리하는 데별로 좋지 않으므로 때로는 매우 거친 행동을 보일 수 있습니다.
올가미 회귀 모델 훈련
올가미 회귀 모델의 훈련은 능선 회귀 모델의 훈련과 정확히 동일합니다. 최적의 람다 값을 식별 한 다음 해당 값을 사용하여 모델을 학습해야합니다. 이를 위해 동일한glmnet
함수를 사용하고alpha = 1
인수를 전달할 수 있습니다. 우리가 통과 할 때alpha = 0
,glmnet()
능선 회귀를 실행하고,우리가 통과 할 때alpha = 0.5
은 탄성 그물이라고 불리는 다른 종류의 모델을 실행하며 능선과 올가미 회귀의 조합입니다.
cv.glmnet()
함수를 사용하여 최적의 람다 값 식별- 최고의 람다 및 최상의 모델 추출
glmnet()
함수- 예측 함수를 사용하여 향후 데이터의 값을 예측
이 예에서는
를 사용합니다.6808>1888 년의 사회 경제적 지표를 기반으로 출산율을 예측하는 데이터 세트.
업데이트-일부 변수 이름을 수정하기 위해 코드 조각이 업데이트되었습니다–– 28/05/2020
# Output 0.3981072
이 값을 사용하여 올가미 모델을 다시 학습하겠습니다.
마지막으로 예측 값과 실제 값을 결합하여 두 값을 나란히 확인한 다음 아르 자형 제곱 공식을 사용하여 모델 성능을 확인할 수 있습니다. 참고-학습 데이터 집합과 테스트 데이터 집합 모두에 대한 아르 자형 제곱 값을 계산해야 합니다.
final <- cbind(y_var, pred)# Checking the first six obshead(final)
아르 자형 제곱 수식 공유
아래에 제공된 함수는 단지 지표 일 뿐이며 데이터 세트를 기반으로 실제 값과 예측 값을 제공해야합니다.
actual <- test$actualpreds <- test$predictedrss <- sum((preds - actual) ^ 2)tss <- sum((actual - mean(actual)) ^ 2)rsq <- 1 - rss/tssrsq
중요한 변수 목록 얻기
중요한 변수 목록을 얻으려면 최종 최상의 모델의 베타 계수를 조사하면됩니다.
# Inspecting beta coefficientscoef(lasso_best)
# Output6 x 1 sparse Matrix of class "dgCMatrix" s0(Intercept) 66.5365304Agriculture -0.0489183Examination . Education -0.9523625Catholic 0.1188127Infant.Mortality 0.4994369
이 모델은 농업과 교육의 계수가 0 으로 축소되었음을 나타냅니다. 따라서 우리는 세 가지 변수,즉;검사,가톨릭,유아와 함께 남아 있습니다.사망률
이 장에서는 우리가 능선 회귀를 구축하는 데 사용되는 동일한 글 엠넷 패키지를 사용하여 올가미 회귀를 구축하는 방법을 배웠습니다. 우리는 또한 능선과 올가미의 차이가 무엇인지 보았다. 다음 장에서는 로지스틱 회귀를 사용하여 이분법 변수를 예측하는 방법에 대해 설명합니다.