Régularisation de la régression logistique

Adrien Guille, Université Lyon 2

But de la régularisation

Le classifieur basé sur la régression logistique repose sur le modèle suivant, où est un vecteur réel décrivant le biais et les coefficients associés aux descripteurs :

Les coefficients peuvent être estimés par maximisation de la vraisemblance à partir d'un jeu de données d'apprentissage :

Le but de la régularisation est de limiter le surapprentissage et ainsi d'accroître les performances du modèles sur de nouvelles données. Pour ce faire, on modifie le problème d'optimisation ci-dessus, en ajoutant un terme de pénalisation. Ainsi, on ne maximise plus la vraisemblance des données, mais on cherche à ce qu'elle soit la plus grande possible, tout en ayant une valeur acceptable pour le terme de pénalisation :

est le terme de pénalisation, une fonction positive du vecteur de coefficients, et le poids accordé à ce terme, c'est-à-dire l'importance donnée à la régularisation.

Termes de pénalisation usuels

Ridge : régularisation

La régularisation de Ridge () permet d'éviter que le modèle donne trop d'importance à certains coefficients en forçant les coefficients à prendre de petites valeurs. Le terme de pénalisation est défini comme le carré de la norme du vecteur :

La norme au carré de correspond à la somme des carrés des coefficients :

LASSO : régularisation

La régularisation LASSO, quant à elle, permet de faire de la sélection de variables, en forçant certains coefficients à être nuls. Le terme de pénalisation est défini comme la norme du vecteur :

La norme de est obtenue en sommant les valeurs absolues des coefficients :

La régularisation LASSO se révèle particulièrement intéressante en grande dimension, c'est-à-dire lorsque est grand.

ElasticNet : combinaison des régularisations et

Enfin, la régularisation ElasticNet (Zou 2005) combine les pénalités et :

Cette formulation est particulièrement intéressante lorsque , c'est-à-dire quand la dimension de l'espace de représentation — le nombre de descripteurs — est supérieure au nombre d'individus.