Régularisation

Dans le cours STT5100, on voit des techniques de sélection de variables comme la technique de Subset Selection qui permet sélectionner un certain nombre de variables parmi \(p-1\) variables et permutant toutes les possibilités des variables dans notre modèle. Toutefois, cette tecgnique devient vite infaisable lorsque \(p\) est grand. On a aussi vu la technique Stepwise Selection, où à chaque step, une variable est considérée pour être ajoutée ou soustraite à l’ensemble des variables explicatives \(p-1\) en fonction d’un critère prédéfini (AIC), BIC, ou \(R^2\) ajusté…etc.

Avoir un riche ensemble de prédicteurs à la régression est une bonne chose, mais n’oublions pas le principe de simplicité; L’explication la plus simple repose sur le plus petit nombre de variables qui modélisent bien les données.

Idéalement, nos régressions devraient sélectionner les variables les plus importantes et les ajuster, mais la fonction objective dont nous avons parlé tente seulement de minimiser l’erreur de somme des carrés.

Nous devons donc modifier notre fonction objective. Comme alternative, nous pouvons ajuster un modèle contenant tous les \(p-1\) prédicteurs en utilisant une technique qui contraint ou “régularise” les estimations de coefficient \(\hat{\beta}\), ou de manière équivalente, qui réduit les estimations de coefficient autour zéro.

Les deux techniques les plus connues pour réduire les coefficients de régression vers zéro sont la régression de Ridge et le Lasso.