Cross-validation

03/09/2017 ∙ by Sylvain Arlot, et al. ∙ 0

This text is a survey on cross-validation. We define all classical cross-validation procedures, and we study their properties for two different goals: estimating the risk of a given estimator, and selecting the best estimator among a given family. For the risk estimation problem, we compute the bias (which can also be corrected) and the variance of cross-validation methods. For estimator selection, we first provide a first-order analysis (based on expectations). Then, we explain how to take into account second-order terms (from variance computations, and by taking into account the usefulness of overpenalization). This allows, in the end, to provide some guidelines for choosing the best cross-validation method for a given learning problem.

READ FULL TEXT VIEW PDF
POST COMMENT

Comments

There are no comments yet.

Authors

page 1

page 2

page 3

page 4

This week in AI

Get the week's most popular data science and artificial intelligence research sent straight to your inbox every Saturday.

1 Sélection d’estimateurs

Ce texte se place dans le cadre général de la prévision, tel que présenté par Arlot (2017), dont on utilise les notations et auquel on fait régulièrement référence par la suite.

On peut alors formaliser le problème de sélection d’estimateurs222Compte-tenu de la terminologie introduite par Arlot (2017), il serait plus logique de parler de sélection de règles d’apprentissage. Nous utilisons néanmoins ici l’expression «  sélection d’estimateurs  », plus courante et plus concise. comme suit.

On dispose d’une collection de règles d’apprentissage et d’un échantillon . On souhaite pouvoir choisir l’une de ces règles à l’aide des données uniquement. Cette question générale recouvre de nombreux exemples :

  • sélection de modèles : pour tout , est une règle par minimisation du risque empirique sur un modèle .

  • choix d’un hyperparamètre :  désigne alors un ou plusieurs paramètres réels dont dépend la règle (par exemple, le nombre de voisins pour les plus proches voisins, ou bien le paramètre de régularisation pour les SVM).

  • choix entre des méthodes de natures diverses (par exemple, entre les plus proches voisins, les SVM et les forêts aléatoires).

Les enjeux du problème et approches pour le résoudre sont essentiellement les mêmes que pour le problème de sélection de modèles, que Arlot (2017, section 3.9) décrit en détail. Nous n’en rappelons donc ici que les grandes lignes.

Tout d’abord, il faut préciser l’objectif (prévision ou identification de la «  meilleure  » règle ). Ce texte se focalise sur l’objectif de prévision : on veut minimiser le risque de l’estimateur final — entraîné sur l’ensemble des données, celles-là mêmes qui ont servi à choisir .

Atteindre un tel objectif nécessite d’éviter deux défauts principaux : le surapprentissage (lorsqu’un prédicteur «  colle  » excessivement aux observations, ce qui l’empêche de généraliser correctement) et le sous-apprentissage (quand un prédicteur «  lisse  » trop les observations et devient incapable de reproduire les variations du prédicteur de Bayes). Il s’agit donc de trouver le meilleur compromis entre ces deux extrêmes. Dans de nombreux cas333Par exemple, pour des estimateurs linéraires en régression, des règles par minimisation du risque empirique ou des règles par moyennes locales. , ceci se formalise sous la forme d’un compromis biais-variance ou approximation-estimation.

Comment faire ? Comme pour la sélection de modèles, on considère habituellement des procédures de la forme :

(1)

On peut les analyser avec le lemme fondamental de l’apprentissage (Arlot, 2017, lemme 2). Deux stratégies principales sont possibles : choisir un critère proche du risque simultanément pour tous les , ou bien choisir un critère qui majore le risque. La validation croisée suit la première stratégie. Alors, au vu du raisonnement exposé par Arlot (2017, section 3.9), il suffit444Il n’y a cependant pas équivalence, voir la section 4. de démontrer que est un bon estimateur du risque555En toute rigueur, il faut parler d’estimation du risque moyen, le risque étant une quantité aléatoire. Par abus de langage, on parle dans ce texte d’estimation (et d’estimateurs) du risque de , et du biais et de la variance de ces estimateurs. À chaque fois, il est sous-entendu que c’est le risque moyen qu’on estime, même si c’est le risque que l’on souhaite évaluer aussi précisément que possible. de pour en déduire que la procédure définie par (1) fonctionne bien.

C’est pourquoi, après avoir défini les procédures de validation croisée (section 2), nous commençons par étudier leurs propriétés pour l’estimation du risque d’une règle d’apprentissage fixée (section 3), avant d’aborder la sélection d’estimateurs (section 4). En guise de conclusion, la section 5 considère plusieurs questions pratiques importantes, dont celle du choix de la meilleure procédure de validation croisée.

2 Définition

Étant donné une règle d’apprentissage , un échantillon et une fonction de coût , la validation croisée estime le risque en se fondant sur le principe suivant : on découpe l’échantillon en deux sous-échantillons (l’échantillon d’entraînement) et (l’échantillon de validation), on utilise pour entraîner un prédicteur , puis on mesure l’erreur commise par ce prédicteur sur les données restantes . Alors, du fait de l’indépendance entre et , on obtient une bonne évaluation666Comme expliqué en section 3, c’est en réalité le risque de que l’on évalue, d’où un léger biais (beaucoup moins problématique que celui du risque empirique). du risque de . En particulier, on évite l’optimisme excessif777Les raisons de cet optimisme sont détaillées par Arlot (2017, section 3.9). du risque empirique . Et l’on peut procéder à un ou plusieurs découpages du même échantillon, d’où un grand nombre de procédures de validation croisée possibles.

2.1 Cas général

Dans tout ce texte, désigne un échantillon de variables aléatoires indépendantes et de même loi . On suppose qu’une fonction de coût est fixée et sert à définir le risque et le risque empirique sur (une quantité définie par Arlot (2017, section 3.1)).

Un sous-ensemble propre888Un sous-ensemble propre de est une partie non-vide de dont le complémentaire est non-vide. La terminologie «  découpage de l’échantillon  » n’est pas classique ; nous l’utilisons ici pour clarifier l’exposition. de est appelé «  découpage  » de l’échantillon. Il correspond à la partition de en deux sous-échantillons :

Pour tout découpage de l’échantillon, on définit le risque empirique sur le sous-échantillon par :

On peut maintenant définir formellement les estimateurs par validation croisée du risque.

Définition 1 (Validation croisée)

Soit une règle d’apprentissage. L’estimateur par validation (simple)999

Le terme anglais pour la validation, ou validation simple, est «  hold-out  » : il s’agit de l’erreur sur des données «  mises de côté  » au moment de l’entraînement.

du risque de pour l’échantillon et le découpage est défini par :

On appelle l’échantillon d’entraînement101010Le terme «  échantillon d’apprentissage  » est parfois utilisé pour désigner l’échantillon d’entraînement ; il arrive aussi qu’on l’utilise pour désigner la réunion de l’échantillon d’entraînement et de l’échantillon de validation, lorsqu’une partie des données est mise de côté dans un échantillon test., tandis que est appelé échantillon de validation.

L’estimateur par validation croisée111111En anglais : «  cross-validation  ». du risque de pour l’échantillon et la suite de découpages est défini par :

Étant donné une famille de règles d’apprentissage , la procédure de sélection d’estimateurs par validation croisée associée est définie par :

Une erreur courante mais grave est d’utiliser

pour estimer le risque de lorsque la règle d’apprentissage dépend déjà elle-même des données. Par exemple, si est construite sur un sous-ensemble des covariables disponibles, et si ce sous-ensemble a été choisi à l’aide d’une partie des données (par une procédure automatisée ou simplement «  à l’œil  »), alors on obtient une estimation fortement biaisée du risque ! En général, cette estimation est très optimiste, conduisant à sous-estimer le risque de prévision réel.

Pour éviter ce biais, il faut prendre en compte la totalité du processus menant des données au prédicteur (c’est-à-dire, tout ce qu’on a fait à partir du moment où l’on a eu accès à au moins une observation). Formellement, il faut décrire comment dépend des données, et le noter . On définit alors puis on applique la validation croisée à en calculant :

Le même problème se pose quand on veut estimer le risque de l’estimateur sélectionné par la validation croisée (ou par toute autre procédure de sélection d’estimateurs). Si l’on utilise la valeur (calculée en cours de procédure)

alors on commet précisément l’erreur mentionnée ci-dessus, et l’on sous-estime fortement le risque. Il faut donc définir

(en spécifiant bien comment la suite de découpages est choisie pour chaque entier ) et lui appliquer la validation croisée en calculant

Dans le cas de la validation simple, ceci conduit à un découpage de l’échantillon en trois sous-échantillons : un échantillon d’entraînement , un échantillon de validation — pour choisir parmi les —, et un échantillon test — pour évaluer le risque de l’estimateur final —, où , et forment une partition de .

Signalons toutefois que d’autres approches permettent d’éviter la nécessité de recourir à un découpage de l’échantillon en trois, en particulier le «  reusable hold-out  » récemment proposé par Dwork et al. (2015), qui repose sur l’idée de n’accéder à l’échantillon de validation que par l’intermédiaire d’un mécanisme de confidentialité différentielle121212Le terme anglais est «  differential privacy  ». .

-0.01-0.01

Parenthèse 1 (Cadre plus général)
On peut définir la validation croisée hors du cadre de prévision ou pour une fonction de risque plus générale que celle définie par Arlot (2017). Il suffit en effet que le risque d’un élément de l’ensemble des sorties possibles d’une règle d’apprentissage vérifie :
(2)
est un échantillon de variables aléatoires indépendantes et de loi , et est une fonction à valeurs réelles, prenant en entrée un élément de et un échantillon de taille quelconque. La fonction mesure l’«  adéquation  » entre et l’échantillon . L’estimateur par validation simple se définit alors par :
et l’estimateur par validation croisée s’en déduit. Dans le cas de la prévision, (2) est vérifiée avec :
La relation (2) est également vérifiée dans d’autres cadres. Par exemple, en estimation de densité, il est classique de considérer le risque quadratique défini par (2) avec :
L’excès de risque correspondant est est la densité (inconnue) des observations (Arlot et Lerasle, 2016). On peut aussi obtenir la distance de Kullback-Leibler entre et comme excès de risque en définissant le risque par (2) avec :
qui est l’opposé de la log-vraisemblance de  au vu de l’échantillon .

2.2 Exemples

Comme l’indique la définition 1, il y a autant de procédures de validation croisée que de suites de découpages . Au sein de cette grande famille, certaines procédures sont toutefois plus classiques que d’autres.

La plupart des procédures utilisées vérifient les deux hypothèses suivantes :

()
()

On suppose toujours dans ce texte que () et () sont vérifiées.

-0.01-0.01

Parenthèse 2 (Sur l’hypothèse ())
L’hypothèse () garantit que l’échantillon d’entraînement et l’échantillon de validation sont indépendants pour tout , ce qui est crucial pour l’analyse menée en section 3.1 notamment. Cependant, il est parfois suggéré de choisir en utilisant l’échantillon pour diverses raisons : pour que l’ensemble du support de soit représenté dans chaque échantillon d’entraînement et chaque échantillon de validation. en classification, pour que toutes les classes soient représentées dans chaque échantillon d’entraînement et chaque échantillon de validation (en particulier lorsque les effectifs des classes sont très déséquilibrés, ou lorsque le nombre de classes est grand). Nous ne connaissons cependant pas de résultat théorique justifiant l’intérêt d’un tel choix. En régression, dans les simulations de Breiman et Spector (1992, section 6.2), une telle stratégie n’a pas d’impact sur les performances.

-0.01-0.01

Parenthèse 3 (Échantillon ordonné et hypothèse ())
Souvent, en pratique, on dispose d’un échantillon «  ordonné  ». Par exemple, lorsque , on a souvent (ce qui signifie, si contient bien les réalisations de variables aléatoires indépendantes de loi , que l’échantillon initial a été réordonné). Alors, si l’on veut utiliser une procédure de validation croisée vérifiant l’hypothèse (), il faut prendre soin d’appliquer au préalable une permutation aléatoire uniforme des indices . Sinon, le découpage ne peut pas être considéré indépendant de . Notons toutefois que ceci n’est pas nécessaire pour les procédures «  leave-one-out  » et «  leave--out  ».

-0.01-0.01

Parenthèse 4 (Sur l’hypothèse ())
Nous ne connaissons pas d’argument théorique en faveur des procédures de validation croisée vérifiant (), si ce n’est qu’elles sont plus simples à analyser que les autres. Il n’empêche que l’hypothèse () est toujours vérifiée (au moins approximativement) dans les applications. Les résultats théoriques mentionnés dans ce texte restent valables (au premier ordre) lorsque () n’est vérifiée qu’approximativement, cas inévitable si l’on utilise la validation croisée «  -fold  » avec non-divisible par .

Parmi les procédures vérifiant les hypothèses () et (), on peut distinguer deux approches. Soit l’on considère la suite de tous les découpages tels que . Lorsque , on obtient le leave-one-out131313En français, la procédure leave-one-out peut être nommée validation croisée «  tous sauf un  » : chaque découpage laisse exactement une observation hors de l’échantillon d’entraînement. En anglais, on trouve aussi les noms «  delete-one cross-validation  », «  ordinary cross-validation  », et même parfois simplement «  cross-validation  ». Dans le cas où est un estimateur des moindres carrés en régression linéaire (Arlot, 2017, exemple 4 en section 3.2), le leave-one-out est parfois appelé PRESS (Prediction Sum of Squares), ou PRESS de Allen ; notons que ce terme désigne parfois directement la formule simplifiée (3) que l’on peut démontrer dans ce cadre. :

. Dans le cas général, en posant , on obtient le leave--out141414En anglais, on trouve aussi les termes «  delete- cross-validation  » et «  delete- multifold cross-validation  ». :

En pratique, il est souvent trop coûteux algorithmiquement (voire impossible) d’utiliser le leave-one-out ou le leave--out. Une deuxième approche est donc nécessaire : n’explorer que partiellement l’ensemble des découpages possibles avec un échantillon d’entraînement de taille .

Considérer un seul découpage amène à la validation simple ou «  hold-out  » ; toutes ces procédures sont équivalentes car on a fait l’hypothèse (). En revanche, dès que l’on considère un nombre de découpages , plusieurs procédures non-équivalentes sont possibles.

La plus classique est la validation croisée par blocs, appelée validation croisée «  -fold  » ou «  -fold  ». On se donne une partition de en blocs de même taille151515Il faut prendre les de même taille pour avoir l’hypothèse (). Lorsque ne divise pas , il suffit de les prendre de tailles égales à un élément près ; les performances théoriques et pratiques sont alors similaires à ce que l’on a quand () est vérifiée exactement., puis on procède à un «  leave-one-out par blocs  », c’est-à-dire, on utilise la suite de découpages :

On peut également procéder à une validation croisée Monte-Carlo (ou validation croisée répétée), en choisissant aléatoires, indépendants et de loi uniforme sur l’ensemble des parties de taille de .

Remarque 5 (-fold ou Monte-Carlo ?)

On discute dans la suite les mérites de ces deux approches. Intuitivement, on peut déjà dire que la validation croisée -fold présente l’avantage de faire un usage «  équilibré  » des données : chaque observation est utilisée exactement fois pour l’entraînement et une fois pour l’apprentissage. Ce n’est en rien garanti avec la validation croisée Monte-Carlo. En revanche, on peut s’interroger sur les inconvénients de toujours utiliser ensemble (soit pour l’entraînement, soit pour la validation) les observations d’un même bloc. L’approche «  Monte-Carlo  », par son caractère aléatoire, permet d’éviter d’éventuels biais induits par ce lien entre observations. Notons qu’il existe une manière d’éviter ces deux écueils : la validation croisée incomplète équilibrée161616En anglais, on parle de «  balanced-incomplete cross-validation  », qui s’appuie sur la notion de «  balanced-incomplete block-design  ». (Arlot et Celisse, 2010, section 4.3.2), qui présente l’inconvénient de n’être possible que pour d’assez grandes valeurs de .

Signalons enfin que bien d’autres procédures de validation croisée «  non-exhaustives  » existent. Par exemple, avec la validation croisée -fold répétée, on choisit plusieurs partitions , , et l’on explore l’ensemble des découpages

2.3 Astuces algorithmiques

La complexité algorithmique du calcul «  naïf  » de

est de l’ordre de fois celle de l’entraînement de sur un échantillon de taille (c’est en général le plus coûteux), plus l’évaluation de en points. Il est cependant parfois possible de faire beaucoup plus rapide.

Tout d’abord, on dispose dans certains cas de formules closes pour l’estimateur par validation croisée du risque de , au moins pour le leave-one-out et le leave--out171717Au vu des résultats des sections 3 et 4, en particulier la proposition 2 en section 3.3 qui montre que la variance de la validation croisée est minimale pour le leave--out — à fixée —, il semble inutile de considérer un autre type de validation croisée quand on sait calculer rapidement tous les estimateurs par leave--out. (Arlot et Celisse, 2010, section 9). Par exemple, si est un estimateur des moindres carrés en régression linéaire, la formule de Woodbury (Press et al., 1992, section 2.7) permet de démontrer (Golub et al., 1979) :

(3)

Le calcul de l’estimateur leave-one-out avec (3) est aussi coûteux que celui d’un seul entraînement de sur , via le calcul de la matrice .

-0.01-0.01

Parenthèse 6 (Validation croisée généralisée)
La formule close (3) obtenue pour le leave-one-out en régression linéaire a conduit à en définir une version «  invariante par rotation  » (Golub et al., 1979), appelée validation croisée généralisée ou GCV (de l’anglais «  generalized cross-validation  »). Par rapport à la formule (3), les dénominateurs sont remplacés par :
Ce critère s’applique, plus généralement, à tout estimateur «  linéaire  » en régression avec le coût quadratique, notamment les plus proches voisins (Arlot, 2017, section 5.4), les estimateurs par noyau (Arlot, 2017, section 5.5) et les estimateurs ridge. Efron (1986) explique pourquoi, malgré son nom, GCV est beaucoup plus proche des critères et de Mallows que de la validation croisée proprement dite.

Par ailleurs, même en l’absence de formule close, on peut réduire la complexité algorithmique de la validation croisée en entraînant d’abord sur l’échantillon tout entier (une fois pour toutes), puis, pour chaque découpage , en «  mettant à jour  » afin d’obtenir . Lorsque cette mise à jour est efficace, le gain algorithmique est important. Cette idée s’applique dans plusieurs cadres, dont l’analyse discriminante (linéaire ou quadratique) et les  plus proches voisins (Arlot et Celisse, 2010, section 9). Considérons ici à nouveau l’estimateur des moindres carrés en régression linéaire. Son calcul nécessite d’inverser la matrice de taille , ce qui a un coût de l’ordre de . Lorsque est significativement plus petit que , on peut utiliser la formule de Woodbury (Press et al., 1992, section 2.7) pour déduire de à moindres frais,

La formule de Woodbury est également utile en régression ridge, où l’essentiel du temps de calcul de l’estimateur est consacré à l’inversion de la même matrice .

Enfin, dans un contexte de sélection d’estimateurs, il n’est pas toujours nécessaire de calculer

pour chaque . Les valeurs de l’erreur de validation obtenues sur les premiers découpages , , , peuvent suffire à éliminer certains (et donc de gagner en temps de calcul), sans trop perdre sur la qualité du prédicteur final (Krueger et al., 2015).

2.4 Variantes

Pour le problème de sélection d’estimateurs, il y a plusieurs variantes de la validation croisée, qui ne suivent pas la définition 1 mais reposent sur le même principe d’entraînement et validation selon plusieurs découpages successifs.

Yang (2006, 2007) propose la «  validation croisée par vote  »181818Le terme anglais est «  cross-validation with voting  ». Par opposition, Yang nomme «  cross-validation with averaging  » la validation croisée habituelle, celle de la définition 1. , lorsque l’objectif est d’identifier la meilleure règle d’apprentissage (comme expliqué par Arlot (2017, section 3.9); voir aussi la remarque 13 en section 5.1). Pour chacun des , on sélectionne un estimateur par validation simple :

(4)

Ensuite, on réalise un vote majoritaire parmi les pour déterminer . Clairement, ceci n’a de sens que lorsque est discret. Yang propose cette variante dans un contexte où est fini et de petite taille. Supposons par exemple que l’on veut choisir, pour un problème de classification, entre les plus proches voisins, la régression logistique et les forêts aléatoires. Si les paramètres de chaque méthode sont choisis par une boucle interne de validation croisée, on a . Cela fait donc sens d’effectuer un vote majoritaire parmi les obtenus sur découpages différents.

La validation croisée agrégée191919En anglais, on utilise les termes «  CV bagging  » ou «  averaging cross-validation  », pour un ensemble de méthodes similaires à celle qui est décrite ici. est une variante largement utilisée en pratique pour ses bonnes performances en prévision, mais peu mentionnée dans la littérature (Jung et Hu, 2015; Maillard, 2016). L’idée est de ne pas sélectionner l’un des mais d’en combiner plusieurs pour obtenir un prédicteur encore plus performant (parfois meilleur que le choix oracle, d’après des résultats expérimentaux). Comme pour la validation croisée par vote, pour chaque découpage , , on sélectionne défini par (4). Ensuite, on construit un prédicteur en agrégeant les prédicteurs obtenus avec chaque découpage. En régression, on fait une moyenne :

En classification, on procède à un vote majoritaire :

Cette idée d’agrégation est à rapprocher du bagging, bien que la validation croisée agrégée ne coïncide pas exactement avec le bagging appliqué à la validation simple.

3 Estimation du risque : biais et variance

Si l’on utilise la validation croisée pour estimer le risque (moyen) d’une règle d’apprentissage fixée, il est naturel de s’intéresser à deux quantités : son biais et sa variance.

3.1 Biais

Sous les hypothèses () et (), l’espérance d’un critère par validation croisée général se calcule aisément :

(5)

désigne un échantillon de variables indépendantes et de même loi .

Proof

Par définition de la validation croisée, on a :

D’après l’hypothèse (), et sont deux échantillons indépendants de variables indépendantes de loi , donc

Comme l’hypothèse () garantit que les sont tous de même taille, on a

pour tout , d’où le résultat.

En vue d’estimer le risque moyen

d’après (5), le biais de la validation croisée s’écrit :

(6)

En particulier, il ne dépend pas du nombre de découpages ! C’est seulement une fonction de la taille de l’échantillon d’entraînement (en plus de , et ). La manière dont le risque moyen varie avec la taille de l’échantillon joue donc un rôle clé dans l’analyse en espérance de la validation croisée.

Supposons tout d’abord que le risque moyen diminue quand on a plus d’observations :

(7)

en notant l’ensemble des mesures de probabilité sur . Alors, le biais (6) est une fonction décroissante de la taille de l’échantillon d’entraînement. En particulier, il est minimal lorsque (par exemple, pour le leave-one-out).

Remarque 7 (Règles intelligentes)

L’hypothèse (7), qui semble faible au premier abord, est la définition d’une règle d’apprentissage «  intelligente  »202020En anglais, «  smart rule  ». (Devroye et al., 1996, section 6.8). Mais attention ! Toutes les règles d’apprentissage classiques ne sont pas «  intelligentes  » : par exemple, la règle du plus proche voisin et certaines règles par noyau (avec un noyau et une fenêtre fixes) ne sont pas intelligentes en classification binaire (Devroye et al., 1996, section 6.8 et problèmes 6.14–6.15) ! Une règle par partition sur une partition indépendante de  n’est pas non plus intelligente, même si elle l’est «  presque  » (voir les exercices 1 et 2). Devroye et al. (1996, problème 6.16) conjecturent même qu’aucune règle universellement consistante n’est intelligente.

Pour quantifier plus précisément le biais, faisons une hypothèse plus forte, qui implique (7) :

(8)

Par exemple, (8) est vérifiée en estimation de densité par moindres carrés212121Ce cadre n’est pas un exemple de problème de prévision, mais on peut tout de même y définir la validation croisée, voir la parenthèse 1 en section 2.1. ; est alors l’erreur d’approximation et est l’erreur d’estimation (deux quantités définies par Arlot (2017, section 3.4)). En régression avec le coût quadratique, (8) est approximativement vérifiée pour les règles par partition (Arlot, 2008). Alors, le biais (6) d’un critère par validation croisée s’écrit :

On peut distinguer trois situations :

  • si (comme pour le leave-one-out), alors le biais est négligeable devant : au premier ordre, la validation croisée estime le risque moyen sans biais.

  • si avec , alors le biais vaut : la validation croisée estime correctement l’erreur d’approximation mais surestime d’un facteur l’erreur d’estimation . C’est notamment le cas de la validation croisée -fold avec .

  • si , alors le biais est de l’ordre de

    La validation croisée surestime fortement l’erreur d’estimation, et donc aussi le risque (sauf si l’erreur d’approximation domine l’erreur d’estimation, auquel cas il peut n’y avoir quasiment pas de surestimation).

3.2 Correction du biais

Plutôt que de minimiser le biais en choisissant proche de (ce qui nécessite souvent de considérer un grand nombre de découpages à cause de la variance), il est parfois possible de corriger le biais.

Définition 2 (Validation croisée corrigée)

Soit une règle d’apprentissage. L’estimateur par validation croisée corrigée222222Le terme anglais est «  bias-corrected cross-validation  ». du risque de pour l’échantillon et la suite de découpages est défini par :

La validation croisée corrigée a été proposée par Burman (1989), qui la justifie par des arguments asymptotiques, en supposant que est «  régulière  ». À la suite de Arlot (2008) et Arlot et Lerasle (2016), on peut démontrer qu’elle est exactement sans biais, pour tout , sous une hypothèse similaire à (8).

Proposition 1

On suppose () vérifiée et qu’une constante existe telle que pour tout entier :

(9)

Alors, pour tout et toute suite de découpages , la validation croisée corrigée estime sans biais le risque moyen de :

(10)

Proof

On part de la définition de la validation croisée corrigée, en remarquant que :

Alors,

Or, le troisième terme ci-dessus est d’espérance nulle car et sont indépendants d’après (). En utilisant l’hypothèse (9), on en déduit que

-0.01-0.01

Parenthèse 8 (Sur l’hypothèse (9))
L’hypothèse (9) porte sur l’espérance de la pénalité idéale (voir Arlot (2017, section 3.9)). Elle est vérifiée en estimation de densité par moindres carrés (Arlot et Lerasle, 2016), et elle l’est (approximativement) pour les règles de régression par partition avec le coût quadratique (Arlot, 2008). On peut noter que dans les deux cas, les hypothèses (8) et (9) sont vérifiées avec , ce qui est lié à l’heuristique de pente (Birgé et Massart, 2007; Arlot et Massart, 2009; Lerasle, 2012). De manière plus générale, l’argument asymptotique de Burman (1989) peut se résumer à établir que (9) est approximativement valide sous des hypothèses de régularité sur et sur le coût .

3.3 Variance

L’étude de la variance des estimateurs par validation croisée est plus délicate que celle de leur espérance. On peut toutefois établir quelques résultats généraux. En revanche, des résultats quantitatifs précis (et valables pour les procédures par blocs) ne sont actuellement connus que dans des cadres particuliers, comme celui considéré à la fin de cette section.

3.3.1 Inégalité générale

On a tout d’abord une inégalité générale entre les variances des estimateurs par validation simple, par validation croisée et par leave--out, à taille d’échantillon d’entraînement fixée.

Proposition 2

Soit des entiers, un échantillon de variables aléatoires indépendantes et de même loi, et des parties de indépendantes de et telles que pour tout . On a alors :

Proof

On commence par faire une remarque générale. Si sont des variables aléatoires réelles de même loi, alors :

(11)

En effet, par convexité, on a :

En intégrant cette inégalité, on obtient :

Le résultat s’en déduit en retranchant de chaque côté :

Or, la loi de est la même quel que soit de taille , y compris (par indépendance des avec ). En effet, passer de à de même taille équivaut à permuter les observations de , ce qui ne change pas la loi de car les observations sont indépendantes et de même loi. L’inégalité (11) implique donc la première inégalité.

Pour obtenir la deuxième, notons l’ensemble des permutations de et pour toute permutation . On a alors, pour tout ,

Or, a même loi que , puisque les observations sont indépendantes et de même loi, si bien que (11) s’applique et donne la deuxième inégalité.

-0.01-0.01

Parenthèse 9 (Variance conditionnelle et (11))
En utilisant la formule (12) ci-après et le fait qu’une variance est positive ou nulle, on obtient que
ce qui démontre l’inégalité (11) d’une autre manière.

Le résultat de la proposition 2 est naturel : à taille d’échantillon d’entraînement fixée, il vaut mieux considérer plusieurs découpages qu’un seul, et il vaut encore mieux les considérer tous. Mais c’est un résultat limité : l’amélioration est-elle stricte ? Si oui, combien gagne-t-on ? La proposition 2 ne permet pas de savoir. Pire encore : on ne peut pas comparer ce qui se passe avec deux et avec trois découpages !

Intuitivement, plus le nombre de découpages est grand, plus la variance est petite. La réalité est malheureusement un peu plus compliquée, et cela dépend de comment on découpe. Cinq découpages bien choisis peuvent être meilleurs que six mal choisis !

3.3.2 Validation croisée Monte-Carlo

Si l’on se limite à une famille particulière de découpages (la validation croisée Monte-Carlo), cette intuition peut être justifiée et quantifiée.

Proposition 3

Soit des entiers. Si sont indépendantes, de loi uniforme sur l’ensemble des parties de de taille , et indépendantes de , alors on a :