Interpretabilité des modèles : état des lieux des méthodes et application à l'assurance

Since May 2018, the General Data Protection Regulation (GDPR) has introduced new obligations to industries. By setting a legal framework, it notably imposes strong transparency on the use of personal data. Thus, people must be informed of the use of their data and must consent the usage of it. Data is the raw material of many models which today make it possible to increase the quality and performance of digital services. Transparency on the use of data also requires a good understanding of its use through different models. The use of models, even if efficient, must be accompanied by an understanding at all levels of the process that transform data (upstream and downstream of a model), thus making it possible to define the relationships between the individual's data and the choice that an algorithm could make based on the analysis of the latter. (For example, the recommendation of one product or one promotional offer or an insurance rate representative of the risk.) Models users must ensure that models do not discriminate against and that it is also possible to explain its result. The widening of the panel of predictive algorithms - made possible by the evolution of computing capacities – leads scientists to be vigilant about the use of models and to consider new tools to better understand the decisions deduced from them . Recently, the community has been particularly active on model transparency with a marked intensification of publications over the past three years. The increasingly frequent use of more complex algorithms (deep learning, Xgboost, etc.) presenting attractive performances is undoubtedly one of the causes of this interest. This article thus presents an inventory of methods of interpreting models and their uses in an insurance context.

READ FULL TEXT VIEW PDF

Authors

page 24

page 31

09/25/2018

A Gradient-Based Split Criterion for Highly Accurate and Transparent Model Trees

Machine learning algorithms aim at minimizing the number of false decisi...
12/22/2017

Contour: A Practical System for Binary Transparency

Transparency is crucial in security-critical applications that rely on a...
06/01/2020

Serverless End Game: Disaggregation enabling Transparency

For many years, the distributed systems community has struggled to smoot...
12/15/2020

Towards Grad-CAM Based Explainability in a Legal Text Processing Pipeline

Explainable AI(XAI)is a domain focused on providing interpretability and...
04/20/2021

GDPR-Compliant Use of Blockchain for Secure Usage Logs

The unique properties of blockchain enable central requirements of distr...
10/30/2018

Bibliometrics-based heuristics: What is their definition and how can they be studied?

Paradoxically, bibliometric indicators (i.e., publications and citation ...
12/07/2021

Datensouveränität für Verbraucher:innen: Technische Ansätze durch KI-basierte Transparenz und Auskunft im Kontext der DSGVO

A sufficient level of data sovereignty is extremely difficult for consum...
This week in AI

Get the week's most popular data science and artificial intelligence research sent straight to your inbox every Saturday.

1 L’interprétabilté des modèles : un enjeu majeur

1.1 Définir l’interprétabilité

Figure 1: Nombre d’articles publiés en lien avec l’interprétabilité des modèles de machine learning au cours des 15 dernières années [Adadi and Berrada 2018]

Si l’on se réfère aux différentes publications de ces dernières années, l’interprétabilité est un nouvel enjeu dans l’utilisation des modèles et plus particulièrement ceux de machine learning. Adadi and Berrada (2018) ont en effet montré l’intérêt croissant de la communauté scientifique et des régulateurs pour l’interprétation des modèles. Cependant, bien que le concept d’interprétabilité semble de plus en plus répandu, on note l’absence d’un consensus général tant sur la définition que sur la mesure de l’interprétabilité d’un modèle [Molnar 2019]. Il existe effectivement de nombreuses méthodes (graphiques, mathématiques, etc.) qui peuvent être associées à la l’interprétation des algorithmes, ce qui entraîne parfois une certaine confusion autour de la notion. Par ailleurs, il peut décrire des degrés différents de compréhension selon la population visée : parlons-nous de la compréhension du modèle, de la capacité à contrôler les résultats de ce dernier, de sa transparence vis-à-vis d’utilisateurs novices ? Ou faisons-nous référence aux moyens mis en place pour analyser les résultats d’un algorithme aussi complexe soit-il ?

Murdoch and Singh (2019) tentent de donner une définition précise à l’interprétabilité dans le cadre d’un modèle de machine learning. Ils fournissent notamment un cadre (appelé PDR) construit sur trois propriétés souhaitées pour l’évaluation et la construction d’une interprétation. Ce cadre est détaillé ci-aprés et permet de classer les différentes méthodes existantes et d’utiliser un vocabulaire commun entre les différents acteurs du domaine de l’apprentissage statistique.

1.2 Définir les critères d’un modèle interprétable

L’article [Murdoch and Singh 2019] suggère tout d’abord que l’interprétation fait référence à la notion d’extraction d’informations. Miller (2019) propose plus précisément de définir l’interprétabilité comme le degré à partir duquel un humain peut comprendre la cause d’une décision. Une définition alternative est également proposée par Kim et al. (2016) et reprise par Molnar (2019): l’interprétabilité est définie comme «le degré à partir duquel un humain peut régulièrement prédire le résultat du modèle ». Ainsi, une connaissance est dite pertinente [Murdoch and Singh 2019] si elle fournit une information pour un public particulier et un problème d’un domaine choisi. La notion d’interprétabilité peut donc s’évaluer selon plusieurs critères :

  • La confiance : ce critère revient régulièrement lorsque l’interprétabilité des modèles est abordée. Par exemple, [Ribeiro et al. 2016] font référence à cet enjeu: lorsque l’on considère qu’un modèle fournit des résultats qu’un humain peut utiliser pour prendre des décisions, il apparaît clairement qu’il doit pouvoir s’appuyer sur le modèle en toute sérénité.

  • La causalité : bien que l’un des objectifs des algorithmes d’apprentissage statistique soit de mettre en avant des corrélations, l’algorithme doit permettre de mieux comprendre des phénomènes du monde réel et les interactions entre différents facteurs observés.

  • «La transférabilité» : définie comme la capacité d’un modèle à s’adapter à des situations légèrement différentes, elle est une des propriétés souhaitées dans la recherche d’interprétabilité. Elle transcrit en outre, la capacité de généralisation.

  • «L’informativité» : l’utilisation d’un algorithme doit pouvoir dépasser la simple optimisation mathématique. Un modèle doit pouvoir fournir une information précise sur sa prise de décision.

  • Une prise de décision juste et éthique : ce critère rejoint les directives du RGPD. L’utilisateur d’un algorithme doit pouvoir s’assurer de l’absence de biais dans la prise de décision et un respect de l’éthique (ne pas commettre de discrimination par exemple).

Même s’il est difficile de prendre en compte objectivement l’ensemble de ces axes, l’interprétabilité peut être garantie par l’utilisation de deux grandes familles d’outils : ceux qui s’appuient sur le modèle lui-même et ceux qui s’appliquent a posteriori via des analyses post-hoc. Pour bien les choisir, le cadre PDR (Precision, Description, Relevance) [Murdoch and Singh 2019] -ou PDP en français- suggère d’utiliser des méthodes qui permettent d’interpréter un modèle sous trois angles : la «précision prédictive», la «précision descriptive» et la «pertinence».

La précision dite prédictive (P) évalue l’aptitude predictive d’un modele en prêtant attentation non seulement à son efficacité en moyenne, comme il est de tradition en machine learning, mais aussi à sa distribution. Il peut en effet être problématique que l’erreur de prédiction soit bien plus élevée pour une classe spécifique, meme si le modele est trés prédictif en moyenne ; ou bien l’on peut vouloir s’assurer que le modèle est robuste (i.e. non sensible à l’échantillonnage) pour faire confiance aux relations qu’il met en avant.

La précision dite descriptive (D) est définie dans [Murdoch and Singh 2019

] comme le «degré à partir duquel une méthode d’interprétation capture objectivement les relations apprises par les modèles de machine learning ». En général, les modèles perçus comme interprétables comme les arbres de classification par exemple, ou les régression linéaire, possèdent des méthodes d’interprétation s’appuyant sur les modèles (graphiques, effet-marginaux, odd-ratio, etc.) avec une bonne précision descriptive. Lors du choix du modèle de

machine learning pour répondre à une problématique, un compromis est donc à réaliser entre précision prédictive et précision descriptive. Intrinsèquement, les modèles "simples" possèdent des méthodes d’interprétation à fort pouvoir descriptif alors que les modèles complexes (à forte paramétrisation comme le deep learning ou à grande profondeur comme le Xgboost) ont une bonne précision prédictive mais nécessitent des interprétations post-hoc pour d’augmenter leur précision descriptive.

Figure 2: Impact des méthodes d’interprétabilité sur les précisions prédictive et descriptive dans le cadre du PDR [Murdoch and Singh 2019]

Enfin, la pertinence (R) de l’information apportée par l’interprétation du modèle est également cruciale. [Murdoch and Singh 2019] la définissent comme suit : «une interprétation est dite pertinente si elle fournit des informations pour un public particulier et un domaine choisi ». L’interprétabilité est donc également dépendante du public concerné par le modèle : un décisionnaire, un médecin, un patient, un assuré, etc. Ce dernier critère permet alors parfois d’arbitrer entre la précision «prédictive »et «Descriptive ». L’interprétabilité se mesure donc par une approche méthodique et le choix d’outils adaptés afin d’assurer la bonne compréhension des résultats obtenus via un processus de modélisation. Comme introduit précedemment, l’interprétabilité peut donc s’étudier dans un premier temps sous deux niveaux : l’interprétabilité basée sur les modèles et l’interprétabilité post-hoc (agnostique aux modèles).

1.3 Les deux grands types d’interprétabilité

1.3.1 L’interprétabilité basée sur le modèle (IBM)

L’interprétabilité basée sur le modèle (IBM), constitue le premier niveau d’interprétabilité. Elle intervient pendant l’élaboration du modèle et est liée au choix des familles d’algorithmes utilisées pour comprendre un phénomène et leur calibrage. Un modèle interprétable peut alors se définir par sa :

  • parcimonie : La parcimonie est étroitement liée au principe du rasoir d’Ockham, qui stipule que «les multiples ne doivent pas être utilisés sans nécessité ». Dans le cas d’un modèle de machine learning, imposer que le modèle soit parcimonieux revient à limiter le nombre de paramètres non nuls. En statistique comme en apprentissage automatique, il existe différentes méthodes de régularisation, applicables à de nombreux modèles222Le Xgboost introduit une méthode de régularisation tout comme le deeplearning avec le drop-out. Cependant même sous contrainte, ces modèles sont souvent peu parcimonieux..

  • simulabilité : Murdoch and Singh (2019) définit un modèle comme simulable si un humain est capable de reproduire le processus de décision global de l’algorithme. Ainsi la simulabilité réfère à une transparence totale du modèle : un humain devrait être capable, à partir des entrées et des paramètres du modèle, de réaliser l’ensemble des calculs, en temps raisonnable, pour reconstruire la prédiction faite par le modèle. En ce sens, les arbres de décision sont généralement cités comme des algorithmes simulables, étant donné leur simplicité visuelle pour la prise de décision. De même, les règles de décision sont rangées dans cette catégorie.

  • modularité : un modèle est modulaire si une portion significative du processus de prédiction peut être interprétée indépendamment. Ainsi, un modèle modulaire ne sera pas aussi simple à comprendre qu’un modèle parcimonieux ou simulable mais peut augmenter la précision descriptive en fournissant des relations apprises par l’algorithme. Un exemple classique de modèle considéré comme modulaire est la famille des GAM (modèles additifs généralisés) [Tibshirani 1990

    ], dont les GLM (régressions linéaires généralisées) sont une sous-famille. Dans ce type de modèles, la relation entre les variables est forcément additive et les coefficients trouvés permettent une interprétation relativement facile du modèle. Par opposition, les réseaux de neurones profonds sont eux considérés comme peu modulaires, étant donné le peu d’informations fournies par les coefficients de chaque couche. Dans une étude réalisée par Caruana et Al. (2015), il est prouvé que la probabilité de décès à cause de la pneumonie plus faible lorsque le patient est atteint d’asthme. Cela vient du fait que les patients atteints d’asthme reçoivent un traitement plus agressif. Si l’on suivait les préconisations données par l’algorithme, c’est-à-dire de rendre le traitement moins agressif pour les personnes atteintes d’asthme, le modèle deviendrait faux. Cet exemple montre l’intérêt de la modularité pour produire des interprétations pertinentes, de sorte à pouvoir détecter ensuite des biais dans la base d’apprentissage.

Selon sa nature, un modèle possède des propriétés et outils d’analyse qui permettent une compréhension plus ou moins simple selon les points mentionnés précédemment. Le second niveau d’interprétation est moins sensible aux algorithmes utilisés lors du processus de modélisation.

1.3.2 L’interprétabilité post-hoc

L’interprétabilité post-hoc, à la différence de l’interprétabilité basée sur le modèle, correspond à l’analyse une fois que le modèle a été ajusté. Cette interprétation a posteriori intervient dans le but de fournir des informations sur les relations éventuelles capturées par l’algorithme. C’est sur ce type d’interprétation que la recherche a été particulièrement active ces dernières annnées. Elles s’avèrent particulièrement utiles pour analyser des modèles complexes mais à forte précision prédictive.

L’analyse post-hoc vient augmenter la précision descriptive du modèle. Elle intervient plus particulièrement à deux niveaux : sur la compréhension du modèle au regard des données utilisées et sur l’analyse des prédictions fournies par l’algorithme. Elle est donc un supplément aux modèles utilisés. Ces méthodes ont connu ces dernières années des évolutions assez prononcées permettant de dépasser les limites des outils pré-existants d’analyse notamment ceux des arbres [Breiman 2001] ou des réseaux de neurones [Olden et al. 2004].

L’interprétation au niveau des données permet de s’intéresser aux relations générales apprises par le modèle, c’est-à-dire aux règles pertinentes d’une classe particulière de réponses ou d’une sous-population. De ces deux niveaux d’interprétation post-hoc se dégagent des outils d’interprétation globaux et locaux. La section qui suit présente différentes méthodes d’interprétation post-hoc.

2 Les méthodes d’interprétation post-hoc

Dans cette section nous nous intéressons aux méthodes post-hoc agnostiques aux modèles. Il existe bien évidemment des méthodes propres à chaque algorithme renforçant l’interprétation de ces derniers (comme par exemple l’importance des variables des arbres [Breiman 2001]) mais ne sont pas l’objet de ce chapitre. Le schéma 3

résume la répartition des méthodes d’interprétation selon différents niveaux d’un processus de modélisation. Nous distinguons en particulier différents cadres d’application de ces méthodes. Les deux grandes familles présentées dans la littérature sont les méthodes globales et locales. Ces dernières reposent sur la compréhension de la prédiction de la boîte-noire d’une observation en particulier alors que l’approche globale essaie de comprendre le modèle dans son intégralité. A mi-chemin entre ces deux familles se trouve le cadre régional, qui essaie d’expliquer le comportement du modèle pour un groupe d’individus similaires, par exemple à partir de clusters. Nous détaillons dans les sections suivantes les outils d’interprétation qui nous ont semblé les plus pertinents au regard des modèles complexes les plus couramment utilisés en assurance, à savoir les modèles par arbres (Random Forest ou Gradient Boosting). Ces méthodes sont par ailleurs applicables à tout algorithme (elles sont pour cela dites "agnostiques").

Figure 3: Différentes catégories d’interprétabilité des modèles

2.1 Méthodes graphiques d’interprétation

2.1.1 Graphique de dépendance partielle (PDP)

Présentation de la méthode

L’analyse PDP (Partial Dependance Plot), introduite par [Friedman 2001] est sans doute la méthode la plus ancienne d’interprétation des modèles au regard des publications de ces trois dernières années. Cette méthode graphique de dépendance partielle a pour objectif de montrer l’effet marginal d’une ou plusieurs variables explicatives sur la prédiction faite par un modèle. C’est une méthode d’interprétation globale.

Considérons une base d’apprentissage x constituée de vecteurs aléatoires indépendants et de même loi et un modèle entraîné sur des observations de la base , avec pour . Notons l’ensemble des variables pour lesquelles on veut connaître l’effet sur la prédiction et les variables explicatives restantes. Par exemple et . Ainsi, , représente l’ensemble des variables explicatives utilisées par notre modèle.

On définit alors la fonction de dépendance partielle par la formule:

(1)

Notons que cette formule diffère de l’espérance conditionnelle de

. Afin de l’estimer, il suffit d’utiliser les

observations et la méthode de Monte Carlo pour estimer l’espérance :

(2)
Figure 4: Calcul du graphique PDP sur un exemple simple

L’algorithme de construction de la courbe est détaillé en annexe B. Il repose sur l’hypothèse forte de non corrélation entre les variables de l’ensemble et celles de . Dans la pratique, ce cas est rarement vérifié ce qui mène à la considération d’associations de modalités non possibles en réalité (par exemple d’observer un individu de 2m avec un poids inférieur à 10kg si on considère des variables morphologiques).

Illustration

Afin d’illustrer la méthode, considérons l’exemple qui introduit les variables ci-après.

avec indépendant de . Supposons que nous observons un échantillon de taille . Le nuage de points (scatter-plot) associé à et de cet échantillon est représenté à gauche de la figure 5. Le graphique de PDP de la variable associé au modèle de Random Forest mis en place afin de prédire est représenté à droite de la figure 5.

Figure 5: Scatter Plot de et (à gauche) et graphique PDP de (à droite)

Le graphique 5 de PDP suggère qu’en moyenne la variable n’est pas significative dans la prédiction de par le modèle de forêt aléatoire alors que le nuage de points semble suggérer une conclusion inverse. Ce cas illustre la problématique de l’absence de prise en compte des corrélations entre les variables par PDP. Pour en tenir compte, il existe une alternative au PDP appelée ICE. Cette méthode est détaillée en annexe C.

Une variante : l’IPD

En plus de donner l’effet marginal moyen d’une variable, les graphiques de PDP peuvent fournir une information sur l’importance d’une variable dans la prédiction faite par un modèle. En effet, lorsque le graphe de PDP associé à la variable (par exemple) est relativement plat, il semble naturel de penser que cette variable n’a pas beaucoup d’influence sur la prédiction de . L’idée introduite par Greenwell (2018) est ainsi de définir une fonction qui mesure la "platitude" de la courbe de PDP : pour une observation . Une mesure simple et efficace proposée [Greenwell 2018

] est la variance empirique lorsque les variables

sont continues et la statistique d’intervalle divisée par 4 pour les variables catégorielles à niveaux. Dans le cas où , on obtient alors les formules :

Cette technique est appelée (Importance Based On Partial Dependance). En outre, le graphique PDD permet de fournir une meilleure interprétation des relations entre la variable à expliquer par l’algorithme et les variables endogènes de la base de données.

Conclusion : apports et limites du PDP

Ainsi, le graphique PDP est souvent utilisé pour sa simplicité d’interprétation et sa facilité d’implémentation. De plus, ce graphique peut servir d’outil dans l’estimation de l’importance des variables et leurs interactions au sein d’un modèle. Cependant, ce graphique seul ne suffit pas à expliquer toute la complexité d’un algorithme. La méthode de calcul repose effectivement sur une hypothèse forte et limitante d’indépendance entre les variables. Par ailleurs, le PDP masque les effets hétérogènes comme illustré sur la figure 5. C’est la raison pour laquelle cette méthode est souvent associée à d’autres graphiques comme ICE détaillé en annexe C.

2.1.2 Graphique des effets locaux accumulés (ALE)

Le graphique des effets locaux accumulés (Accumulated Local Effects Plot) a pour objectif de corriger les limites de ceux de PDP, notamment lorsque les variables explicatives sont corrélées. La méthode a été introduite par Apley (2016). Tout comme le PDP, l’ALE est une approche globale d’interprétation.

Partant de l’exemple des combinaisons de poids et tailles introduit par Molnar (2019), le PDP illustré en figure 6 ne tient effectivement pas compte de la distribution empirique.

Figure 6: Cas du calcul de la PDP avec des variables très corrélées lorsque l’on fixe =0.75 [Molnar 2019]

Une première idée illustrée en figure 7 afin d’éviter ce problème est, dans le calcul de PDP, de moyenner à partir de la distribution conditionnelle, ce qui signifie que pour une valeur donnée, on réalise la moyenne des instances avec des valeurs similaires localement à .

Figure 7: -plot dans le cas de deux variables très corrélées en utilisant la distribution conditionnelle de sachant [Molnar 2019]

Cependant cette approche ne permet pas de tenir compte d’effets combinés de variables. Par exemple si on souhaite prédire le prix d’une maison, à partir des variables (surface de la maison) et (nombre de chambres), en supposant que la variable de surface de la maison n’a pas d’effet sur la prédiction mais que seul le nombre de chambres en a un, comme le nombre de chambres augmente avec la surface, le -plot précédent montrera alors que la surface de la maison fait augmenter son prix.

Le graphique des effets locaux accumulés (ALE) dépasse cette limite. Ce dernier repose sur la distribution conditionnelle des variables mais calcule également les différences en prédiction à la place de moyennes. Ainsi si on veut comprendre l’effet associé à une surface de 30 m, la méthode ALE utilise toutes les instances (ie toutes les maisons) de 30m et regarde la différence en prédiction lorsqu’on change leur surface de 29m à 31m. Ceci donne alors l’effet de la variable de surface, et non l’effet combiné avec le nombre de chambres, qui lui est corrélé, comme dans le -plot. Le graphique 8 résume l’idée de calcul de l’ALE : on divise tout d’abord la variable en intervalles, pour chaque instance dans un intervalle, on calcule la différence en prédiction lorsqu’on remplace la valeur de par la borne supérieure et inférieure de l’intervalle considéré; enfin, toutes ces différences sont accumulées et centrées, ce qui donne la courbe d’ALE. La méthode de construction de la courbe est précisée en annexe D.

Figure 8: Explication du calcul de l’ALE avec des variables et très corrélées [Molnar 2019]

Nous venons ainsi d’illustrer deux méthodes qui permettent d’analyser de manière globale tout modèle. Cependant, lorsque les modèles sont complexes ou pas suffisamment parcimonieux, ces outils ne sont parfois pas suffisants pour comprendre les prédictions. Les deux parties suivantes introduisent deux algorithmes récemment publiés proposant des méthodes d’interprétation locales : LIME [Ribeiro et al. 2016] et SHAP [Lundberg and Lee 2017].

2.2 Lime

Présentation

LIME [Ribeiro et al. 2016] est l’une des premières approches locales apparues dans le domaine du machine learning interprétable. Cette méthode consiste à utiliser un modèle de substitution (noté ) qui approche localement le modèle que l’on tente d’expliquer (noté ).

Cette substitution s’effectue en appliquant dans un premier temps une légère perturbation des données initiales . On crée alors un nouvel échantillon, noté . Sur ce dernier, on applique alors le modèle afin de reconstruire la variable à expliquer correspondante. Ainsi, on notera : . Chaque observation de l’échantillon simulé est ensuite pondérée en fonction de sa proximité avec les données initiales : plus celle-ci est proche, plus son poids est important. Sur ces données pondérées, on construit alors un modèle simple d’interprétation . Celui-ci est généralement de type Lasso pour la régression et un arbre de décision pour la classification. Notons que cette fois-ci le modèle fournit une bonne approximation locale mais pas nécessairement une approximation globale.

Ainsi la fonction associée au modèle est trouvée en résolvant le problème d’optimisation :

(3)

avec la fonction de coût; la fonction associée au modèle , la fonction associée au modèle qu’on souhaite optimiser, appartenant à la classe de modèle ; une mesure de proximité définissant la taille du voisinage autour de que nous considérons pour l’interprétation du modèle et une fonction traduisant la complexité d’un modèle.

Toutefois en pratique, l’implémentation en Python de LIME n’optimise que le terme associé à la fonction de coût. Il revient à l’utilisateur de choisir un modèle peu complexe, comme par exemple si est une régression, un modèle avec un nombre limité de variables explicatives (c.f critère de parcimonie).

La figure 9 [Ribeiro et al. 2016], résume le fonctionnement de LIME dans le cas d’un modèle de classification binaire (classe 0 ou 1), avec deux variables explicatives. La zone en bleu représente les points associés à la classe 1 selon le modèle étudié et la zone rose clair les points associés à la classe 0. Les croix roses et les points bleus représentent quant à eux les données simulées pour l’apprentissage du modèle de substitution. La taille du motif représente le poids du point considéré, suivant sa distance à l’observation d’intérêt, représentée par la croix rouge. La droite grise en pointillés est la limite de décision obtenue par l’algorithme LIME à l’aide d’un modèle linéaire.

Figure 9: Principe de LIME pour un problème de classification binaire [Ribeiro et al. 2016]
Limites

LIME a néanmoins fait l’objet de plusieurs critiques. Ces critiques sont de deux ordres principalement.

Tout d’abord, comme le remarque T. Laugel (2018), le choix du noyau utilisé dans l’algorithme LIME pour mesurer la proximité des observations est primordial. Il peut en effet avoir un impact majeur sur la fidélité et la précision de l’explication qui en découle. Par exemple, considérons une variable explicative et un modèle de décision représenté par le trait noir sur la figure 10. Notre objectif est de comprendre localement la prédiction faite par le modèle au niveau de l’instance (représentée par la croix noire). Les lignes tracées de différentes couleurs (jaune, vert et violet) illustrent la sensibilité de l’approximation locale de LIME au paramètre du noyau. On observe effectivement que les lignes jaunes (=2) et vertes (=0.75) répliquent peu le comportement local du modèle contrairement à la courbe violette (=0.1). L’annexe E détaille une alternative de LIME proposée par Biecek and Staniak (2018).

Figure 10: Choix du paramètre du noyau pour la mesure de proximité dans l’algorithme LIME [Molnar 2019]

Par ailleurs, Tan et al. (2019) soulignent les incertitudes liées aux méthodes d’interprétation locale des modèles de machine learning, dont LIME. Les auteurs mettent en garde les utilisateurs sur la robustesse et la confiance que l’on peut avoir en la méthode. L’utilisation de LIME déplace alors la question de l’interprétabilité des modèles complexes sur les outils eux-mêmes utilisés pour la résoudre. Tan et al. (2019) soulignent notamment via un exemple :

  • Le hasard dû à l’échantillonnage des données : comme l’échantillonnage est aléatoire, deux tirages ne donnent pas nécessairement la même explication d’une prédiction

  • La sensibilité des explications au choix des paramètres, comme la taille de l’échantillon et la proximité d’échantillonnage.

  • La variation de la crédibilité d’interprétation selon les points étudiés.

Conclusion

Même si LIME présente certaines limites, cette méthode propose un premier outil d’interprétation locale et permet notamment de compléter les limites des méthodes standards telles que l’importance des variables dans les méthodes par arbres (Random Forest, Gradient Boosting, etc.).

2.3 Shap

SHAP [Lundberg and Lee 2017] est également un algorithme d’interprétation locale. Il s’appuie sur la mesure de Shapley introduite en théorie des jeux en 1953.

2.3.1 La valeur de Shapley en théorie des jeux

Quand un modèle réalise une prédiction, nous percevons intuitivement que chaque variable ne joue pas le même rôle : certaines n’ont quasiment aucun impact sur la décision prise par le modèle, alors que d’autres ont beaucoup plus d’influence. L’objectif de l’algorithme SHAP est de quantifier le rôle de chaque variable dans la décision finale du modèle. Pour cela, l’algorithme s’appuie sur la valeur de Shapley [Winter 2002] - introduisons dans un premier temps cette valeur.

Considérons un jeu caractérisé par un 2-uplet : est un ensemble de joueurs, et est une fonction caractéristique telle que : avec l’ensemble des sous-ensembles de P.

Un sous-ensemble de joueurs est appelé coalition et l’ensemble de tous les joueurs est appelé la grande coalition. La fonction caractéristique décrit l’importance de chaque coalition.

L’objectif du jeu est alors de répartir l’importance de chaque joueur dans le gain total de la manière la plus "juste" possible. Ainsi, on cherche un opérateur , qui assigne au jeu , un vecteur de payoffs. Comment définir la notion de répartition juste entre les joueurs ? Lloyd Shapley en propose en 1953 une définition en quatre axiomes :

  • Efficacité:

  • Symétrie: Pour tout couple de joueurs , si , , alors

  • Facticité: Soit un joueur. Si , alors: .

  • Additivité: Pour tous jeux, , avec:

La valeur de Shapley est alors l’unique valeur "juste" qui distribue le gain total , c’est-à-dire celle qui respecte les quatre conditions précédentes. Shapley démontre ce théorème et donne une valeur explicite de cette valeur, à savoir:

(4)

On peut également définir cette valeur de Shapley d’une autre manière:

(5)

avec: l’ensemble des permutations de et l’ensemble des joueurs qui sont prédécesseurs du joueur dans la permutation (il s’agit du nombre qui apparaît avant le nombre dans la permutation ).

2.3.2 La valeur de Shapley appliquée à l’interprétabilité des modèles

SHAP [Lundberg and Lee 2017] reprend la valeur de Shapley pour en faire une mesure du poids de chaque variable dans les prédictions d’un modèle, et ce quelle que soit sa complexité.

Considérons une variable numérique à prédire , à partir d’un vecteur de variables explicatives.

On suppose que l’on dispose d’un échantillon: correspondant aux valeurs cibles et correspondant aux variables explicatives (avec le nombre d’individus).

Notre algorithme de machine learning est calibré sur cet échantillon et on note la fonction associée au modèle, c’est-à-dire la fonction qui renvoie la prédiction de y faite par le modèle à partir du vecteur : .

Si on fait l’analogie avec la version de la mesure de Shapley en théorie des jeux, nous obtenons :

  • le jeu: la tâche de prédiction pour une instance du dataset,

  • le gain: la prédiction actuelle de cette instance moins la prédiction moyenne de toutes les instances du jeu de données,

  • les joueurs: les valeurs des caractéristiques , qui collaborent pour recevoir le gain (ici il s’agit de prédire une certaine valeur).

Supposons que notre variable à expliquer est le prix d’une voiture en euros et que nos variables explicatives sont et , respectivement le nombre de chevaux de la voiture et le nombre de portes. Supposons également que pour et , le prix estimé par le modèle est . Nous savons également qu’à partir des données initiales (constituées de plusieurs prix de voitures et des variables explicatives associées), la prédiction moyenne est de euros.

L’objectif du jeu est alors d’expliquer cette différence de euros, entre la prédiction faite par le modèle et la prédiction moyenne. On pourrait par exemple, obtenir le résultat suivant: a contribué pour euros et pour euros (par rapport à la valeur moyenne prédite) et justifierait donc la différence de euros observée.

Finalement, on peut définir la valeur de Shapley comme la contribution marginale moyenne d’une variable (explicative) sur toutes les coalitions possibles.

2.3.3 Un cas particulier : la valeur de Shapley dans le cas de la régression linéaire

On considère le modèle linéaire: , avec . On définit alors la valeur de Shapley de la variable associée à la prédiction : (avec l’effet moyen de la variable ). On parle aussi de contribution de la variable dans la prédiction de , car il s’agit de la différence entre l’effet de la variable et l’effet moyen. On peut remarquer que la somme des contributions de toutes les variables explicatives donnent la différence entre la valeur prédite pour et la valeur de prédiction moyenne. En effet:

(6)

Cette écriture peut alors être généralisée à tout modèle à l’aide de la valeur de Shapley.

2.3.4 La valeur de Shapley dans le cas général

Considérons une variable numérique à prédire , à partir d’un vecteur de variables explicatives. On se place dans le cadre d’un modèle quelconque, avec la fonction associée. Soit l’instance pour laquelle on veut expliquer la prédiction.

Définissons la différence en prédiction d’un sous-ensemble des valeurs des caractéristiques dans une instance particulière , introduite par Strumbelj and Kononenko (2011). Il s’agit du changement dans la prédiction causé par l’observation de ces valeurs des variables explicatives. Formellement, soit un sous-ensemble des variables explicatives (avec ). Notons la différence de prédiction, associée au sous-ensemble :

Cette différence de prédiction correspond à notre fonction de coût. Ainsi forme un jeu de coalition tel qu’il est défini dans la partie précédente.

La contribution de la variable explicative , est définie comme la valeur de Shapley de ce jeu de coopération :

(7)

Dans cette formule: l’ensemble des permutations de cet ensemble. En utilisant la formule alternative équivalente, on a également:

(8)

est l’ensemble des permutations de

Prenons un exemple simple pour comprendre comment la valeur de Shapley fonctionne. Considérons un jeu avec trois joueurs . On compte alors sous-ensembles possibles, à savoir : et . En utilisant la formule de l’équation 8, on obtient :

En définissant le gain "non distribué" , qui correspond au payoff fixé qui n’est pas associé aux actions des joueurs, la propriété d’additivité est bien respectée, à savoir : .

Dans le cas général, on retrouve alors les propriétés vues précédemment à savoir:

  • Efficacité: . On retrouve alors la propriété que l’on a observée pour le modèle linéaire, à savoir que la somme des p contributions pour l’explication d’une observation est égale à la différence entre la prédiction faite par le modèle pour cette observation et la prédiction (moyenne) du modèle si on ne connaissait aucune information sur la valeur des variables explicatives .

  • Symétrie: deux variables explicatives qui ont une influence identique sur la prédiction auront des valeurs de contributions identiques.

  • Facticité: une variable qui a une contribution de 0 n’aura aucune influence sur la prédiction.

  • Additivité: Si le modèle qu’on utilise repose sur la moyenne de plusieurs modèles (comme les forêts aléatoires qui utilisent des arbres de décision) alors la contribution de ce modèle sera la moyenne des contributions de chaque modèle pris seul.

2.3.5 Algorithme de calcul approché de la valeur de Shapley

Le problème, en pratique, est le temps de calcul de la valeur de Shapley du fait de sa complexité (croissante avec le nombre de variables et de modalités). En effet, pour ce faire, nous devons calculer toutes les coalitions possibles avec ou sans la variable que l’on souhaite expliquer: la complexité est donc exponentielle.

Pour remédier à ce problème, Strumbelj and Kononenko (2011) proposent une approximation qui s’appuie sur des méthodes de simulation par Monte Carlo, à savoir:

où: est l’indice de la variable que nous souhaitons expliquer, est le nombre d’itérations choisi et est la prédiction pour le vecteur de variables explicatives, mais avec un nombre aléatoire de caractéristiques remplacées par un point aléatoire, excepté pour la valeur de la caractéristique choisie. La prédiction est quasiment identique à sauf que la valeur est aussi prise à partir de l’échantillon de .

On en déduit la procédure proposée par Strumbelj et Kononenko pour approcher la valeur de Shapley associée à la variable pour à l’aide de l’algorithme suivant :

  • Entrée: le modèle , l’instance que nous cherchons à expliquer et le nombre d’itérations de l’algorithme

  • pour allant de 1 à , faire:

    • choisir une permutation aléatoire

    • choisir une instance du dataset initial

    • ,

  • Sortie:

Notons bien qu’à chaque itération, les calculs des termes et reposent sur des observations qui sont identiques à l’exception de la variable . Ils sont construits en prenant l’instance et en changeant la valeur de chaque variable apparaissant avant la -ième variable dans l’ordre de la permutation (pour la valeur de est également changée) par la valeur des caractéristiques de l’instance pour laquelle on désire expliquer .

2.3.6 Propriétés et limites de SHAP

Bien que SHAP soit également un modèle d’interprétation local, il diffère de LIME : SHAP explique la différence entre une prédiction et la prédiction moyenne globale, tandis que LIME explique la différence entre une prédiction et une prédiction moyenne locale.

SHAP est la seule méthode d’interprétabilité, à ce jour, avec un fondement mathématique. En effet, la différence entre la prédiction et la prédiction moyenne est distribuée de manière "juste" entre les différentes variables utilisées par le modèle, grâce à la propriété d’efficacité de la valeur de Shapley. Ceci n’est pas le cas de LIME, qui repose sur un principe qui semble cohérent mais n’a pas de justification mathématique. SHAP pourrait ainsi être une méthode d’interprétabilité des modèles répondant aux exigences du "droit à l’explication" instauré par le RGPD.

La méthode SHAP fournit une explication de la prédiction faite par un modèle quelconque (aussi complexe soit-il) en attribuant une valeur de contribution à chaque variable utilisée, contrairement à LIME qui renvoie une réponse plus concise, en pénalisant les modèles complexes. On peut alors considérer que SHAP réalise moins d’approximations que LIME et de ce fait fournit une explication plus précise.

Lorsque le modèle à interpréter est entraîné avec un grand nombre de variables, l’interprétation fournie par SHAP n’est pas parcimonieuse. SHAP renvoie effectivement autant de coefficients que de variables explicatives, ce qui rend parfois la lecture difficile.

Pour contourner ce problème, une adaptation de SHAP, appelée Kernel Shap (Linear LIME + Shapley Values) est proposée [Lundberg and Lee 2017]. L’idée est ainsi de relier les équations 3 (de LIME) et 7 (de SHAP). En choisissant judicieusement la fonction de coût , la mesure de proximité et le terme de régularisation , il est alors possible d’écrire la valeur de Shapley comme solution du problème d’optimisation posé par LIME dans l’équation 3. Cette combinaison permet alors de fournir des explications plus parcimonieuses.

Par ailleurs, SHAP dans sa version initiale suppose que les variables sont indépendantes. Une alternative a néanmoins été récemment proposée par Aas et al. (2019).

Enfin, remarquons que SHAP ne fournit qu’une indication sur la contribution de chaque variable pour une prédiction donnée. Il ne permet pas de déduire des effets globaux, contrairement à l’interprétation des odds-ratios dans le cadre de régression linéaire. Il n’apporte qu’une compréhension locale, même si cette dernière est parfois plus explicite lors de l’usage de modèles complexes comme les réseaux de neurones ou des méthodes ensemblistes (forêts aléatoires, XGBoost par exemple).

2.4 Mesure de l’interaction entre les variables à l’aide de la -statistique

2.4.1 Principe de l’interaction entre les variables

L’interaction entre les variables (feature interaction) apparaît lorsque les prédictions ne sont pas seulement composées de la somme des effets individuels de chaque variable, mais aussi de termes supplémentaires, correspondant au fait que la valeur d’une variable dépend également de la valeur de l’autre variable. C’est par exemple le cas lorsque nous mettons en place un modèle de régression linéaire "avec interaction":

  • est sans interaction entre et

  • possède une interaction entre les variables explicatives et

Considérons un autre exemple, dans lequel nous souhaitons prédire le coût moyen d’un sinistre automobile d’un assuré à partir de son âge (jeune ou vieux) et la puissance de sa voiture (faible ou élevée). Nous disposons des prédictions suivantes:

Age Puissance Prédiction (coût moyen des sinistres)
Jeune Elevée 300
Jeune Faible 200
Vieux Elevée 250
Vieux Faible 150
Table 1: Tableau de prédiction du modèle 1, sans interaction

Sur ce modèle très simple, nous pouvons décomposer la prédiction du modèle de la manière suivante:

  • un terme constant (intercept) de 150

  • un terme d’effet de l’âge du conducteur de 50 (0 si il est vieux, + 50 si il est jeune)

  • un terme d’effet de la puissance du véhicule de 100 (0 si le conducteur est âgé, + 100 si il est jeune)

Nous n’observons donc pas de terme d’interaction. Considérons un autre exemple où les prédictions sont les suivantes:

Age Puissance Prédiction (coût moyen des sinistres)
Jeune Elevée 400
Jeune Faible 200
Vieux Elevée 250
Vieux Faible 150
Table 2: Tableau de prédiction du modèle 2, avec interaction

Sur ce nouveau modèle nous pouvons décomposer la prédiction de cette manière:

  • un terme constant (intercept) de 150

  • un terme d’effet de l’âge du conducteur de 50 (0 si il est vieux, + 50 si il est jeune)

  • un terme d’effet de la puissance du véhicule de 100 (0 si le conducteur est âgé, + 100 si il est jeune)

  • un terme d’interaction entre la variable d’âge et de puissance de 100( +100 si l’assuré est à la fois âgé et possède une voiture puissante, 0 sinon)

À l’aide de la -statistique, nous pouvons mesurer l’interaction entre les variables pour n’importe quel modèle [Friedman et al. 2008].

2.4.2 -statistique de Friedman

Nous utilisons les mêmes notations que pour la partie 2.1.1 plus haut sur le PDP, à savoir: représente le sous-ensemble de variables dont nous souhaitons mesurer l’influence, le reste des variables () et le modèle, supposé complexe, que nous étudions. Pour tout , notons la fonction de dépendance associée à la variable et la fonction de dépendance associée à toutes les variables sauf . Notons également, pour , la fonction de dépendance associée aux variables et . Rappelons que nous estimons la fonction de dépendance à l’aide de la relation:

(9)

Nous supposons dans cette section que le modèle est centré, i.e. . Dans le cas d’absence d’interaction entre les variables et , nous avons alors la relation:

(10)

Si n’a d’interaction avec aucune des autres variables, la prédiction du modèle d’une entrée vérifie donc :

(11)

Les coefficients introduits par Friedman exploitent cette relation pour donner une mesure d’interaction. Le premier coefficient, noté , mesure la quantité de variance expliquée par l’interaction entre et :

(12)

S’il n’y a pas d’interaction entre et , la -statistique vaut zéro, tandis que si toute la variance de est expliquée par la somme des fonctions de dépendance individuelle alors elle vaut 1.

Une deuxième statistique a été introduite par Friedman pour mesurer l’effet d’une variable avec toutes les autres :

(13)

La -statistique est une mesure relativement intuitive des interactions, elle est toutefois relativement longue à calculer. Lorsque le volume de données est important, elle peut même devenir impossible à calculer. On peut alors sous-échantillonner les données disponibles, mais cela augmente la variance de l’estimation et rend la -statistique instable.

2.5 Importance des variables

La notion d’importance des variables dans un modèle a fait l’objet de nombreuses définitions. Certaines d’entres elles sont spécifiques à un modèle ou à une classe de modèles : la -statistique est un exemple dans le cas des modèles linéaires mais il existe également des mesures spécifiques aux modèles à base d’arbres. Ici, nous nous intéressons à une nouvelle définition de l’importance des variables, qui a pour particularité d’être agnostique, indépendante du modèle considéré, notée PFI (Permutation Feature Importance) [Fisher 2018].

L’idée est de considérer que si une variable est très importante, l’altération de la qualité de ses données perturbera grandement la qualité des prédictions du modèles. Pour cela, on altère artificiellement la qualité des données pour cette variable en permutant toutes ses valeurs. Si la prédiction d’un modèle est grandement modifiée lorsque l’on mélange les valeurs d’une variable, cela signifie que le modèle est sensible aux variations de cette variable et donc qu’elle joue un rôle prépondérant dans le modèle. Inversement, une variable qui pour laquelle une modification de ses valeurs n’impactera que peu la prédiction du modèle ne sera pas considérée comme importante. En résumé, une variable est d’autant plus importante que l’erreur de prédiction du modèle augmente après avoir permuté les valeurs de cette variable considérée.

Décrivons le calcul de cette statistique. Soit la fonction associée au modèle que l’on souhaite interpréter. On se place toujours dans le cas où nous disposons de observations: et . On note la fonction d’erreur utilisée, par exemple: La procédure pour le calcul de l’importance des variables du modèle est la suivante :

  • Calcul de l’erreur d’origine du modèle:

  • pour à :

    • On choisit aléatoirement une permutation de dans . On définit une nouvelle matrice de variables d’entrées, par la formule :


      C’est-à-dire que l’on permute (avec ) les observations de la variable et on laisse les autres observations inchangées.

    • On estime l’erreur commise par le modèle sur cette nouvelle matrice d’entrée, à savoir: .

    • On calcule l’importance de la variable par la formule:

  • Sortie de l’algorithme : , triées par ordre décroissant.

Selon ce que le type d’interprétation que l’on souhaite obtenir, il peut être plus pertinent de calculer l’importance des variables sur la base d’apprentissage ou la base de test : le calcul sur permet de savoir à quel point le modèle compte sur chaque variable pour faire une prédiction ; celui sur de savoir à quel point une variable contribue à la performance du modèle sur des données non entraînées.

2.5.1 Avantages

Les avantages de cette méthode de mesure de l’importance des variables sont nombreux, on peut citer notamment:

  • Une mesure intuitive : plus l’erreur est grande quand l’information est détériorée, plus la variable est importante.

  • Un aperçu global synthétique, comme on pourrait l’avoir avec les coefficients d’un modèle de régression linéaire.

  • Un critère comparable entre différents modèles.

  • Une prise en compte à la fois des effets de la variable et de ses interactions avec les autres variables333Ceci peut également être vu comme un inconvénient..

  • Un calcul efficace qui ne nécessite pas de ré-entraîner le modèle, soit un gain de temps en comparaison avec d’autres méthodes.

2.5.2 Inconvénients

L’importance par permutation a toutefois quelques inconvénients, à savoir:

  • Le choix entre les bases d’apprentissage et de test n’est pas très clair.

  • Le résultat fourni par l’algorithme peut varier grandement du fait du hasard introduit par les permutations.

  • L’ajout d’une variable corrélée à une autre diminue l’importance de la variable considérée.

  • Les permutations peuvent fournir des instances irréelles. En effet, lorsque l’on permute une variable au sein d’une instance, on ne fait pas attention au fait que la nouvelle instance soit réellement observable. Ceci est le même problème que celui observé avec le PDP. Considérons par exemple le cas où l’on dispose des variables explicatives de poids et de taille d’un homme. Si on réalise une permutation comme dans l’algorithme ci-dessus, on peut se retrouver avec un individu de taille 2 mètres et de poids 30kg, ce qui n’est pas possible en réalité.

Au cours des deux dernières parties, nous avons tout d’abord expliqué l’importance du besoin d’interprétabilité dans l’usage de modèles prédictifs tout en donnant quelques éléments définitionnels à cette notion difficile à cerner, puis dans un second temps nous avons exposé quelques méthodes courantes d’interprétabilité. Appliquons désormais ces méthodes à un cas concret afin d’illustrer leurs apports et leurs limites.

3 Application des méthodes d’interprétation à la tarification automobile

Dans cette partie, nous mettons les méthodes d’interprétation en application dans le cadre d’un cas pratique actuariel : la tarification automobile. Nous voulons comprendre si des modèles plus complexes, éventuellement plus performants, peuvent s’interpréter de la même manière que les outils plus classiques utilisés aujourd’hui. Plus précisément, nous souhaitons étudier si ces modèles - souvent dits boîtes-noires- pourraient être réellement déployés tout en respectant les règles imposées par la réglementation (droit à l’explication prévu par le RGPD, contrôles de l’ACPR etc.).

3.1 Modélisation et comparaison des différentes approches

Nous utilisons la base de données publique freMTPL2freq, disponible dans le package R . Il s’agit des données d’un portefeuille français d’assurance de responsabilité civile moteur pour différents assurés observés sur un an. Cette base permet donc de modéliser la fréquence des sinistres. Nous disposons de plus de 600 000 polices d’assurance, avec des variables explicatives comme l’âge de l’assuré, la puissance de véhicule ou encore son ancienneté. La particularité des données de fréquence est qu’elles sont très déséquilibrées, avec de nombreux zéros (absence d’accident) et une exposition variant fortement. Une description plus détaillée des données est fournie sur la figure 11.

Figure 11: Description des données pour modéliser la fréquence des sinistres

Dans un contexte de tarification automobile, l’approche actuarielle classique est une modélisation indépendante de la fréquence (nombre de sinistres annuels) et de la sévérité (coût moyen d’un sinistre), pour former la prime pure en combinant les prédictions de ces deux modèles. Nous nous intéressons ici uniquement à la partie fréquentielle. Notons que la modélisation de la sévérités s’appuie sur un jeu de données de taille réduite, étant donné qu’uniquement les assurés sinistrés sont utilisés. De plus, la corrélation entre les variables explicatives et la variable cible (montant du sinistre) est généralement assez faible ce qui rend difficile d’obtenir un modèle prédictif performant. Nous avons observé au cours de notre étude qu’il était difficilement possible, y compris avec des modèles complexes tels que les méthodes ensemblistes, d’améliorer sensiblement les performances du GLM Gamma classiquement utilisé. Concentrons-nous à présent sur le modèle de fréquence.

Avant de mettre en place les algorithmes répondant à ce problème, des traitements préliminaires ont été effectués en tentant de répliquer les pratiques opérationnelles : analyse des valeurs aberrantes et des sinistres extrêmes (qui ont été écrêtés), retraitements des variables catégorielles etc. (voir [Delcaillau 2019] pour plus de détails). Cette dernière étape est essentielle pour la mise en place d’un modèle linéaire généralisé (GLM) car, sans retraiter les données, une monotonie est imposée pour les variables numériques de par la nature linéaire du modèle. Nous avons repris le retraitement proposé dans l’article [Noll et al. 2020].

Notre objectif dans cette partie sera de comparer l’interprétabilité de deux modèles : un modèle GLM classique, très souvent utilisé en actuariat et un autre modèle, plus complexe, donnant éventuellement de meilleures performances. Une fois ces modèles mis en place, nous voulons montrer à l’aide des outils d’interprétation détaillés ci-avant qu’il est possible de comprendre le modèle de boîte-noire implémenté et qu’il n’est pas nécessairement moins interprétable que le modèle GLM.

Dans la gamme des modèles complexes tels que les Random Forest ou les réseaux de neurones, nous avons finalement opté pour le modèle eXtrem Gradient Boosting (XGBoost) [Chen and Guestrin 2016]. Le XGBoost est devenu très populaire dans de nombreuses compétitions de machine learning, comme Kaggle, grâce à la flexibilité permise par ses nombreux hyperparamètres. Nous les avons optimisés à partir de validations croisées. Tout au long de cette partie, nous noterons le modèle trivial, renvoyant la moyenne de la fréquence des sinistres, le meilleur modèle GLM (Poisson) trouvé et le modèle qualifié de boîte-noire, qui est un XGBoost.

Il est important de noter que dans le cas du GLM, il est impératif d’avoir recours à un retraitement préalable des variables numériques et de les rendre catégorielles. En effet, sans celui-ci, les relations entre les variables explicatives numériques et la sortie seraient toutes monotones. En particulier, la courbe "en U" classiquement observée représentant la relation entre l’âge du conducteur et la fréquence moyenne de sinistres ne pourrait être obtenue sans ce retraitement (cf. figure 12 obtenue avec nos données). Dans le cadre du XGBoost, et plus généralement des modèles non linéaires, ce retraitement n’est pas nécessaire, car ceux-ci sont capables de capter ces relations complexes. Afin de pouvoir comparer le GLM et le XGBoost, nous avons completé l’analyse en ajustant un nouveau modèle XGBoost, noté C-cat, qui utilise la même transformation des variables que le GLM. Les paramètres de ce modèle ont également été optimisés à l’aide de validation croisée.

Figure 12: Relation empirique observée entre la fréquence moyenne de sinistres et l’âge du conducteur

Les résultats obtenus pour ces différents modèles sont donnés dans le tableau 3. La métrique d’évaluation retenue est ici la déviance de Poisson, très couramment utilisée pour des données fréquentielles. Nous avons également indiqué les valeurs du MSE (Mean Squared Error) et du MAE (Mean Absolute Error) à titre indicatif. Entre parenthèses sont indiqués les gains relatifs par rapport au modèle trivial. Ces critères ont été à la fois calculés sur la base d’apprentissage (In-Sample), pour tester la capacité des modèles à s’ajuster aux données d’entraînement, ainsi que sur la base de test (Out-of-Sample) pour tester la capacité du modèle à s’adaper à de nouvelles données. On note un gain de l’ordre de 3% sur la déviance de Poisson du XGBoost sur le meilleur modèle GLM. Dans un contexte de forte concurrence comme l’assurance automobile, ce gain de précision pourrait s’avérer essentiel, notamment pour ne pas récupérer les mauvais risques et ainsi éviter l’anti-sélection. Notons toutefois qu’il convient de nuancer ces propos puisqu’il n’est pas prouvé qu’une forte segmentation soit synonyme de profit dans un milieu concurrentiel. En effet, segmenter, en plus d’être en opposition avec le principe de base de l’assurance, à savoir la mutualisation, conduit à une augmentation de la volatilité des résultats [Leroy and Planchet 2009].

Déviance de Poisson MSE MAE
App. Test App. Test App. Test
Modèle trivial () 32.94 33.86 0.0564 0.0596 0.0995 0.1015
Meilleur GLM ()
31.27
(+5.06%)
32.17
(+4.99%)
0.0557
(+1.28%)
0.0589
(+1.66%)
0.0979
(+1.62%)
0.0999
(+1.60%)
XGBoost ()
30.22
(+8.24%)
31.29
(+7.59%)
0.0548
(+2.95%)
0.0582
(+2.35%)
0.0965
(+3.02%)
0.0988
(+2.74%)
XGBoost cat (C-Cat)
30.34
(+7.89%)
31.37
(+7.36%)
0.0549
(+2.71%)
0.0582
(+2.23%)
0.0966
(+2.87%)
0.0988
(+2.68%)
Table 3: Résultats des différents modèles de fréquence -modèle trivial, GLM, XGBoost, XGBoost cat - basés sur les critères de déviance de Poisson, MSE et MAE

Toutefois, au-delà des performances et de l’impact de ce gain de précision sur le résultat de l’assureur, le propos de l’article réside essentiellement dans la capacité d’interpréter les prédictions faites par ce modèle complexe et la possibilité de le comprendre au même titre que le GLM.

3.2 Interprétation des modèles GLM et XGBoost

3.2.1 Le modèle GLM

Un modèle à interprétation intrinsèque

Une fois les performances des deux modèles étudiées, notamment avec une analyse de la stabilité vis-à-vis de l’échantillonnage de la base de test et d’apprentissage, nous avons mis en pratique les méthodes d’interprétation développées dans la partie 2, pour mieux comprendre les prédictions réalisées. Nous avons analysé dans un premier temps les prédictions du modèle GLM. Les propriétés de parcimonie et de simulabilité (vues dans la partie 1) nous ont permis de comprendre directement le modèle à partir des coefficients de chacune des variables. En particulier, nous avons décomposé le cheminement qui mène à une prédiction pour un assuré donné (cf. figure 13). Il est également aisé d’étudier le changement de prédiction fournie par le GLM lorsque les caractéristiques d’un assuré sont modifiées : il suffit de regarder le changement du coefficient induit par cette modification de caractéristique.

Ainsi, la structure du GLM permet de comprendre les décisions prises par l’algorithme et justifie qu’il soit classé dans la catégorie des modèles intrinsèquement interprétables.

Figure 13: Exemple de justification du prix de l’assurance automobile d’un assuré en fonction de ses caractéristiques

A ce stade, nous disposons d’une compréhension quasi-totale du modèle GLM. C’est pourquoi nous voulons vérifier la cohérence avec les différents outils de la partie 2 pour interpréter tout type de modèles, y compris donc le GLM.

Interprétation globale.

Tout d’abord une première question que l’on peut se poser concerne l’importance des variables. Comme nous l’avons vu dans la partie 2, la méthode PFI est une approche possible pour y répondre. Nous voulons vérifier que les résultats obtenus sont similaires à ceux de la -statistique, propre au GLM, qui repose sur un principe totalement différent. La figure 14 montre les résultats obtenus par ces deux approches, qui sont sensiblement proches. Notons que seules quelques variables sont représentées dans un souci de lisibilité.

Figure 14: Importance des variables dans le modèle GLM par les approches PFI et -statistique.

L’importance des variables permet de comprendre le rôle global de chaque variable dans la prédiction du modèle GLM mais ne nous indique pas l’impact moyen de chaque modalité sur la prédiction. Pour ce faire, nous pouvons utiliser l’outil de PDP (cf. partie 2.1.1), qui mesure l’effet marginal moyen d’une variable sur la prédiction. Comme nous pouvons le voir sur la figure 15, les courbes de PDP sont simplement les translations des coefficients du GLM (à la fonction de lien inverse, ici exponentielle, près) pour les variables catégorielles, et les PDP associées aux variables numériques sont des droites. Cela est cohérent avec la théorie du GLM et du PDP et nous conforte dans l’idée que l’information seule des coefficients du modèle suffit à son interprétation. Notons que l’ALE peut également être utilisé et conduit aux mêmes interprétations que le PDP dans le cas du GLM.

Figure 15: Graphique de dépendance partielle (en rouge) des variables au sein du modèle (GLM fréquence) et les coefficients du GLM associés (en bleu)
Interactions.

Comme le modèle considéré est un GLM, aucune interaction entre les variables n’est présente. Notons que nous aurions pu utiliser la famille des GAM (Generalized Additive Model) pour y inclure des interactions entre certaines variables.

Vérifions que les outils de la section 2 pour identifier les interactions sont en adéquation avec cette analyse. Tout d’abord, la -statistique (cf. partie 2.4.2), fournit des coefficients proche de 0 pour chaque variable, ce qui signifie l’absence d’interaction au sein du modèle.

Nous pouvons également représenter les courbes ICE qui permettent d’identifier de possibles interactions entre les variables. Nous observons, sur la figure 16, que ces différentes courbes sont translatées entre elles (et avec la courbe PDP qui n’en est que la moyenne), signe d’absence d’interaction.

Figure 16: Quelques courbes ICE (à la fonction lien inverse près) associées à chaque variable utilisée dans le modèle GLM
Interprétation locale.

Nous pouvons également utiliser les outils d’analyse locale, tels que LIME et SHAP. Nous observons que les différentes valeurs obtenues pour interpréter localement une prédiction peuvent être directement déduites des coefficients du modèle GLM : en raison de la linéarité du GLM, l’analyse globale se suffit à elle-même.

Afin d’illustrer concrètement la différence entre LIME et SHAP, il est intéressant d’étudier les résultats de ces deux méthodes dans le cadre du GLM, modèle que l’on maîtrise parfaitement (cf. figure 17).

Figure 17: Résultats obtenus via les méthodes d’interprétation locales LIME et SHAP sur un assuré pour le modèle GLM

Ainsi, que ce soit pour analyser globalement le comportement du modèle GLM, pour identifier les possibles interactions ou pour comprendre une prédiction au niveau local, les outils du chapitre 2 ne sont pas nécessaires : les informations en sortie du modèle et ses paramètres sont suffisants.

3.2.2 Le modèle XGBoost

Nous avons donc montré l’adéquation des résultats théoriques des différentes méthodes d’interprétation agnostiques sur un algorithme parfaitement maîtrisé, à savoir le GLM. Mettons à présent en application ces méthodes sur un modèle considéré comme boîte-noire : le XGBoost. Reprenons pour cela les différentes étapes permettant l’interprétation de notre modèle XGBoost, à savoir l’analyse globale, l’analyse des interactions et enfin l’anayse locale.

Interprétation globale.

Tout d’abord, concernant l’importance des variables, nous avons recours à la méthode PFI vue précédemment. Il existe également des méthodes intrinsèques au modèle XGBoost, mais nous ne les aborderons pas ici.

La figure 18 donne les scores d’importance des différentes variables utilisées par le XGBoost (et par le GLM). Afin de pouvoir réaliser une comparaison, seul le modèle C-cat (XGBoost avec les variables retraitées) est analysé conjointement au GLM. En effet, la méthode PFI donne un score à chaque variable dite Dummy et n’est donc pas directement comparable au modèle XGBoost C.

Figure 18: Importance des 10 variables "dummy" les plus importantes dans les modèles GLM (A) et XGBoost (C-cat)

Nous observons que pour le GLM et le XGBoost, la modalité de la variable (i.e voiture âgée de moins d’un an) semble avoir un rôle prépondérant sur les prédictions faites par ces deux modèles. Le même constat est fait pour la variable numérique de bonus malus.

Le fait que la méthode PFI repose sur les modalités de chaque variable, ce qui donne 52 coefficients dans le cas du retraitement des variables réalisé, rend l’analyse difficile et non parcimonieuse.

Le package DALEX disponible sour propose une adaptation de cette méthode d’importance des variables en donnant un score par variable et non plus par modalité. A l’aide de cette méthode, nous disposons d’une analyse simplifiée de nos différentes variables et de leurs rôles au sein du modèle. Cela nous permettra en outre de comparer nos trois modèles , et C-cat. Le graphique 19 résume l’importance des variables des trois modèles cités précédemment : globalement le rôle des variables est similaire au sein de chacun des modèles. En particulier, les variables de bonus-malus et d’âge du conducteur sont prépondérantes pour les trois modèles. Nous remarquons également que l’âge du conducteur a un rôle plus important dans le XGBoost () que dans les autres modèles. Enfin, les variables et sont très peu influentes en moyenne sur la prédicition réalisée par les différents modèles. Pour le GLM cela signifie que pour toutes les prédictions faites, quel que soit l’individu concerné, ces variables n’ont pas (ou très peu) d’impact.

Dans le cadre des GLM, l’utilisation de méthode d’interprétation locale semble peu pertinente. La seule connaissance des coefficients (pouvant être associés à l’interprétation globale) du modèle suffit à comprendre les comportement locaux. Localement, les coefficients des GLM s’appliquent de manière uniforme à tous les individus afin de produire les prédictions. Pour le XGBoost, cela signifie que pour la majorité des prédictions faites, ces variables n’auront qu’un impact très faible, mais il se peut, qu’au niveau local (pour quelques individus), ces variables soient prépondérantes. Ce phénomène peut être mis en exergue par les méthodes Lime et Shap notamment.

Figure 19: Importance des variables des différents modèles via la méthode DALEX

Nous avons à présent connaissance du rôle global de chaque variable au sein de chaque modèle. Néanmoins, l’importance des variables ne nous fournit pas l’effet moyen de la valeur prise par une variable sur la prédiction du modèle. Les méthodes de PDP et ALE permettent de répondre à cette question.

Ceci permet, entre autre, de vérifier la cohérence de l’impact de chaque variable sur la sinistralité prédite par rapport à l’analyse empirique réalisée avant modélisation. En particulier, pour la variable d’âge du conducteur on espère retrouver une courbe en forme de "U", c’est à dire une sinistralité élevée pour les conducteurs jeunes (moins de 25 ans) et âgés (plus de 70 ans), et une sinistralité relativement faible ou modérée pour les âges intermédiaires. Ceci est bien observé sur le graphique droit de la figure 20. Notons que la courbe bleue est en escalier car les variables ont été discrétisées au préalable. Nous retrouvons d’ailleurs les différentes classes d’âges créées : .

Figure 20: Graphiques de dépendance partielle () associés à la variable d’âge du conducteur et à la variable d’âge du véhicule pour les modèles XGBoost et C-cat

Nous pouvons réaliser la même étude sur la variable d’âge du véhicule. Sur le graphique gauche de la figure 20, nous observons que plus l’âge de véhicule est faible, plus la fréquence de sinistre est élevé. Autrement dit, la relation antre l’âge de véhicle et la sinistralité est décroissante. Notons que les courbes ont été bornées à un âge de véhicule inférieur à 20 ans. Cette interprétation est en ligne avec celle faite à l’aide du modèle GLM. Afin de vérifier la pertinence des deux modèles, on peut confirmer ces résultats par une étude empirique sur l’âge du véhicule et la fréquence des sinistres. Une étude descriptive de la base de données permet de vérifier que 30% des sinistres surviennent pour des véhicules âgés de moins de deux ans. Ce constat peut s’expliquer par la correlation forte entre les grands conducteurs, plus exposés aux sinistres et le fait qu’ils changent plus régulièrement de véhicule. Cependant cet a priori ne peut avec les données actuelles être confirmé.

En annexe F (figures 25 et 26) sont représentés les graphiques de dépendance partielle pour les autres variables. Nous retrouvons notamment, la relation de croissance entre la variable cible et le bonus malus. Les analyses de dépendance partielle permettent donc de retrouver des interprétations similaires à celle des GLM. Combiner par exemple ces outils au Xgboost permettrait par exemple une meilleure classification du risque tout en concervant l’explication des résultats globaux.

Interactions.

Cette analyse univariée, à l’aide des graphiques de PDP ou d’ALE, ne montre pas les effets multivariés présents au sein de la base. En effet, comme nous étudions un modèle XGBoost, les prédictions ne sont pas aussi simples à expliquer que pour le GLM. Par l’étude du modèle Xgboost seul, la prédiction ne peut pas être exprimée comme la somme des effets individuels de chaque variable car l’effet d’une variable dépend de la valeur des autres variables. L’article [Buchner et al. 2017] montre que les méthodes construites à partir d’arbres - comme le XGBoost - sont vantées pour leur capacité à modéliser l’interaction entre différentes variables. Pour mettre en évidence ces possibles interactions, le calcul de la H-statistique est une solution. Celle-ci, étudiée dans la partie 2.4.2, estime la force d’interaction en mesurant la part de la variance due à l’effet d’interaction entre plusieurs variables. Son calcul repose en grande partie sur la dépendance partielle, avec un ratio de la variance due à l’interaction et de la variance totale. La valeur de la H-statistique est comprise entre 0 et 1 avec 0 référant à l’absence d’interaction et 1 indiquant que la prédiction est purement guidée par l’interaction étudiée. Dans notre cas, nous nous restreignons à l’étude conjointe de deux variables. Comme la formule de la H-statistique repose sur des dépendances partielles, le temps de calcul est très élevé et des approximations doivent être réalisées. De plus, dans notre étude seules des variables catégorielles sont utilisées ce qui rend l’utilisation de la H-statistique peu pertinente.

Area BonusMalus Density Region Power DriverAge Brand Gas CarAge
Area 0.002 0.002 0.001 0.002 0.001 0.001 0.003 0.006
BonusMalus 0.014 0.015 0.011 0.014 0.016 0.029 0.045
Density 0.013 0.011 0.006 0.007 0.009 0.063
Region 0.006 0.005 0.004 0.011 0.043
Power 0.005 0.005 0.015 0.110
DriverAge 0.005 0.011 0.021
Brand 0.013 0.027
Gas 0.067
CarAge
Table 4: -statistique pour les différents couples de variables utilisés par le XGBoost (obtenu sur 10 000 points, d’où un temps d’exécution important)

Ceci vient du fait que la -statistique surestime l’effet des interactions à cause des variables catégorielles, comme c’est le cas avec l’exemple de la combinaison , ayant respectivement 6 et 2 modalités. De plus, même si les valeurs de la H-statistique étaient cohérentes, cela ne nous aurait pas donné d’information concernant la nature de l’interaction entre les deux variables choisies. Pour mieux comprendre comment l’interaction joue un rôle dans les prédictions, nous pouvons par exemple étudier les courbes ICE (Individual Conditional Expectation : espérance conditionnelle individuelle), qui généralisent le graphique de dépendance partielle pour chaque observation (c.f partie 2.1.1). A ce titre, la méthode ICE est une méthode d’interprétation locale.

Les courbes ICE reposent sur un principe simple : si les courbes ne sont pas translatées entre elles (ni avec le graphique de dépendance partielle qui est la moyenne de chaque courbe ICE), cela signifie qu’une interaction est présente entre les variables. De par la nature non-linéaire du XGBoost, nous nous attendons évidemment à des courbes non translatées. Afin de mettre en exergue de manière plus précise les possibles interactions, il peut être intéressant de mettre une couleur différente pour chaque courbe suivant la modalité prise par une variable choisie. Nous avons choisi d’étudier l’effet conjoint de l’âge du conducteur et de la puissance du véhicule, répartie ici en 3 classes. Plusieurs études ont montré que l’effet couplé d’un conducteur jeune et d’un véhicule de puissance élevée augmentait drastiquement le risque de sinistres (en terme de fréquence). Ce phénomène peut-être observé sur la figure 21. Pour mettre en évidence la remarque précédente sur l’effet combiné de (, ), il faut comparer les courbes bleues, pour lesquelles la puissance du véhicule est la plus élevée, à la courbe noire de dépendance partielle représentant l’effet moyen de l’âge du conducteur sur la prédiction. On remarque de nombreuses courbes bleues ayant une pentification plus importante entre les modalités et , que le PDP, signe d’un risque supplémentaire de sinistres lorsque l’assuré est jeune et qu’il possède une voiture puissante. La même remarque peut être faite lorsque l’assuré est à la fois vieux (plus de 86 ans) et possède une voiture puissante (de catégorie 3).

Figure 21: Courbes ICE associées au modèle XGBoost avec les variables d’âge du conducteur et de puissance du véhicule

Par le biais de ces courbes ICE, d’autres phénomènes peuvent être observés comme l’effet combiné du bonus-malus et de la puissance du véhicule (cf. Figure 22).

Figure 22: Courbes PDP associées au modèle XGBoost avec les variables de bonus malus et de puissance du véhicule

Nous pouvons également mettre en évidence le risque accru de sinistres lorsque l’assuré est à la fois jeune et possède une voiture récente (de moins d’un an). Le graphique 23 montre cet effet, sur lequel sont représentés les PDP associés à la variable par classe d’âge du véhicule. En vert, il s’agit des véhicules âgés de moins d’un an, en rouge des véhicules âgés entre un et dix ans et enfin en bleu des véhicules de plus de 10 ans. Enfin, les autres courbes bleues (plus fines) correspondent à des courbes ICE issues de assurés pris au hasard dans notre base de données. On retrouve une approximation du graphique de dépendance globale associée à la variable en calculant la moyenne empirique de ces différentes courbes ICE.

Figure 23: Courbes ICE associées au modèle XGBoost avec les variables d’âge du conducteur et d’âge du véhicule

Nous notons sur la courbe verte une décroissance bien plus marquée, pour les jeunes conducteurs, que pour les deux autres courbes. De même, une forte hausse de risque de sinistralité prédite par le modèle est observée aux alentours des 80 ans pour les véhicules récents. Notons également que les différentes courbes ICE mettent en exergue des individus atypiques, pour lesquels le nombre de sinistres prédit (sur un an) est très élevé, dépassant même les 1.5 sinistres prédits. Il peut être intéressant d’étudier en détail ces individus pour lesquels une étude plus approfondie (via les méthodes locales comme LIME et SHAP par exemple) semble indispensable pour comprendre les prédictions du modèle.

Conclusion

Les algorithmes prédictifs sont de plus en plus prisés par les industries afin d’améliorer les différents services qu’elles proposent. Parfois moins contraignants en termes d’hypothèses à vérifier que des algorithmes statistiques plus traditionnels, les modèles de machine learning (au sens large: deep learning, méthodes ensemblistes, etc.) permettent d’améliorer la compréhension de phénomènes et d’en anticiper la survenance avec une meilleure précision. Ce gain se fait souvent au détriment de la complexité des algorithmes mais également de la donnée sur lesquels ils s’appuient. Les méthodes d’interprétation des algorithmes permettent d’étendre les outils d’analyse de ces modèles afin d’en assurer le contrôle et surtout, la pertinence métier. Pouvoir comprendre et expliquer sont des élements essentiels pour les disciplines fondées sur la manipulation des données. Ainsi, cet article met en avant certaines méthodes d’aide à l’interprétation des algorithmes. Il est important de souligner que la recherche ne cesse d’avancer sur ce sujet tant d’un point de vue technique qu’éthique.

References

  • Aas et al. (2019) K. Aas, M. Jullum, and A. Loland. Explaining individual predicitions when features are dependant : More accurate approximations to shapley values. arXiv:1903.10464, 2019.
  • Adadi and Berrada (2018) A. Adadi and M. Berrada.

    Peeking inside the black-box: A survey on explainable artificial intelligence (xai).

    IEEE Access, 6, 2018.
  • Apley (2014) D.W Apley. Visualizing the effects of predictor variables in black box supervised learning models. arXiv:1612.08468, 2014.
  • Apley (2016) D.W Apley.

    Visualizing the Effects of Predictor Variables in Black Box Supervised Learning Models

    .
    2016.
  • Bartlett et al. (2017) P. Bartlett, D. Foster, and M. Telgarsky.

    Spectrally-normalized margin bounds for neural networks

    .
    2017.
  • Biecek and Staniak (2018) P. Biecek and M. Staniak. Explanations of model predictions with live and breakdown packages. arXiv:1804.01955, 2018.
  • Breiman (2001) L. Breiman. Random forests. Machine Learning, 2001.
  • Buchner et al. (2017) F. Buchner, Wasem J., and Schillo S. Regression trees identify relevant interactions: can this improve the predictive performance of risk adjustment? Health economics, 2017.
  • Chen and Guestrin (2016) T. Chen and C. Guestrin. Xgboost: A scalable tree boosting system. CoRR, abs/1603.02754, 2016.
  • Cook and Weisberg (1982) R. Cook and S. Weisberg. Residuals and influence in regression. New York: Chapman and Hall, 1982.
  • D. P. Kingma (2017) J. L. Ba D. P. Kingma. ADAM : A Method For Stochastic Optimization. 2017.
  • (12) A. S. Dalayan. Cours d’Apprentissage et Data Mining (Ensae PariTech).
  • Delcaillau (2019) D. Delcaillau. Contrôle et transparence des modèles complexes en actuariat. Mémoire de l’Institut des Actuaires, 2019.
  • Fisher (2018) A. Fisher. All Models are Wrong but Many are Useful: Variable Importance for Black-Box, Proprietary, or Misspecified Prediction Models, using Model Class Reliance. 2018.
  • Freund and Schapire (1997) Y. Freund and R. Schapire. A decision-theoretic generalization of on-line learning and an application to boosting. Journal of computer and system sciences, 55(1):119–139, 1997.
  • Freund et al. (1996) Y. Freund, R. Schapire, et al. Experiments with a new boosting algorithm. In icml, volume 96, pages 148–156, 1996.
  • Friedman et al. (2008) J. Friedman, B. Popescu, et al. Predictive learning via rule ensembles. The Annals of Applied Statistics, 2(3):916–954, 2008.
  • Friedman (2001) J.H. Friedman. Greedy function approximation : A gradient boosting machine. The Annals of Statistics, 2001.
  • Friedman (1940) M. Friedman. A comparison of alternative tests of significance for the problem of m rankings. The Annals of Mathematical Statistics, 11(1):86–92, 1940.
  • Goldstein et al. (2015) A. Goldstein, A. Kapelner, J. Bleich, and E. Pitkin. Peeking inside the black box: Visualizing statistical learning with plots of individual conditional expectation. Journal of Computational and Graphical Statistics, 24(1):44–65, 2015.
  • Greenwell (2018) B. M. Greenwell. A simple and effective model-based variable importance measure. arXiv:1805.04755, 2018.
  • I. J. Goodfellow (2015) C. Szegedy I. J. Goodfellow, J. Shlens. Explaining and Harnessing Adversial Examples. 2015.
  • Kim (2016) B. Kim. Examples are not Enough, Learn to Criticize! Criticism for Interpretability. 2016.
  • Kim et al. (2016) B. Kim, R. Khanna, and O. Koyejo. Examples are not enough, learn to criticize! criticism for interpretability. In D. D. Lee, M. Sugiyama, U. V. Luxburg, I. Guyon, and R. Garnett, editors, Advances in Neural Information Processing Systems 29, pages 2280–2288. Curran Associates, Inc., 2016.
  • Koh (2017) P. W. Koh. Understanding Black-box Predictions via Influence Functions. 2017.
  • Lange (2008) F. Lange. Exploration de la valeur de Shapley et des indices d’interaction pour les jeux définis sur des ensembles ordonnés. 2008.
  • Laugel (2017) T. Laugel. Inverse Classification for Comparison-based Interpretability in Machine Learning. 2017.
  • Leroy and Planchet (2009) G. Leroy and F. Planchet. Quel niveau de segmentation pertinent ? La Tribune de l’Assurance, 2009.
  • Lipton (2018) Z. Lipton. The mythos of model interpretability. Queue, 16(3):31–57, 2018.
  • Lundberg and Lee (2017) S. Lundberg and Su-In Lee. A unified approach to interpreting model predictions. pages 4765–4774, 2017.
  • Ly (2019) A. Ly. Machine learning algorithms in insurance : solvency, textmining, anonymization and transparency. HAL:tel-02413664, (2019PESC2030), 2019.
  • Miller (2019) T. Miller. Explanation in artificial intelligence: Insights from the social sciences. Artificial Intelligence, 267:1–38, 2019.
  • Molnar (2019) C. Molnar. Interpretable Machine Learning - A Guide for Making Black Box Models Explainable. 2019.
  • Murdoch and Singh (2019) W. J Murdoch and C. Singh. Interpretable machine learning: Definitions, methods, and applications. arXiv:1901.04592, 2019.
  • Noll et al. (2020) A. Noll, R. Salzmann, and M. Wuthrich. Case study: French motor third-party liability claims. Available at SSRN 3164764, 2020.
  • Olden et al. (2004) J. Olden, M. Joy, and R. Death. An accurate comparison of methods for quantifying variable importance in artificial neural networks using simulated data. Ecological Modelling, 178(3-4):389–397, 2004.
  • Ribeiro et al. (2016) M. Ribeiro, S. Singh, and C. Guestrin.

    "why should i trust you?" explaining the predictions of any classifier.

    pages 1135–1144, 2016.
  • Ribeiro et al. (2018) M. Ribeiro, S. Singh, and C. Guestrin. Anchors: High-precision model-agnostic explanations. 2018.
  • Schapire (2013) R. Schapire. Explaining adaboost. In Empirical inference, pages 37–52. Springer, 2013.
  • Simonyan et al. (2014) K. Simonyan, A. Vedaldi, and A. Zisserman. Deep inside convolutional networks: Visualising image classification models and saliency maps. Iclr, 2014.
  • Strumbelj and Kononenko (2011) E. Strumbelj and I. Kononenko. A general method for visualizing and explaining black-box regression models. Int. Conf. on Adaptive and Natural Computing Algorithms, 2011.
  • Szegedy et al. (2013) C. Szegedy, W. Zaremba, I. Sutskever, J. Bruna, D. Erhan, I. Goodfellow, and R. Fergus. Intriguing properties of neural networks. 2013.
  • T. Laugel (2018) X. Renard T. Laugel. Defining Locality for Surrogates in Post-hoc Interpretablity. 2018.
  • Tan et al. (2019) H. F. Tan, K. Song, and M. Udell. Why should you trust my interpretation? understanding uncertainty in lime predictions. arXiv:1904.12991, 2019.
  • Tibshirani (1990) R. Tibshirani. Generalized additive models. London: Chapman and Hall, 1990.
  • Vermet (2020) F. Vermet. Cours d’Apprentissage Statistique : une approche connexionniste (EURIA). 2020.
  • Wachter et al. (2017) S. Wachter, B. Mittelstadt, and C. Russell. Counterfactual explanations without opening the black box: Automated decisions and the GDPR, volume 31. HeinOnline, 2017.
  • Winter (2002) E. Winter. The shapley value.

    Handbook of game theory with economic applications

    , 3:2025–2054, 2002.

Appendix A Annexe : quelques librairies open source utiles

Nous listons ici quelques librairies utiles auxquelles le lecteur peut accéder afin de manipuler les méthodes présentées.

Package R :
Package Python :

Appendix B Annexe : Algorithme de construction de la courbe PDP

L’algorithme proposé dans [Friedman 2001] afin d’estimer les valeurs prises par la fonction de dépendance partielle est le suivant :

  • Entrée : la base d’apprentissage , le modèle , une variable à expliquer supposée ici être pour simplifier, i.e. et .
    c’est-à-dire que :

  • Pour allant de à :

    • Copie de la base d’apprentissage, en remplaçant la valeur de la variable par la valeur constante :

    • Calcul du vecteur de prédiction par des données précédemment définies : pour

    • Calcul de par la formule:

  • Sortie : le graphique des points pour , appelé graphique de dépendance partielle (PDP).

Appendix C Annexe : Précision sur la méthode ICE

L’approche par les courbes ICE fournit un graphique avec une ligne pour chaque instance, qui montre comment la prédiction change quand une caractéristique change. A la place de la moyenne réalisée lors du calcul de la PDP, le calcul de l’ICE est réalisé pour chaque instance. Nous obtenons ainsi un graphique ICE, contenant autant de courbes que d’observations. Cette méthode a été introduite par Goldstein et al. (2015). Contrairement au graphique de dépendance partielle qui est une approche globale, les courbes ICE sont locales (c.f figure 3). L’algorithme utilisé pour estimer l’ICE est le suivant:

  • Entrée: les données d’entraînement: , le modèle ajusté , un sous-ensemble de et le complémentaire de dans .

  • Pour i=1,…,n:

    • : on fixe les colonnes à la -ième observation.

    • Pour l=1,…n:

  • Output:

Reprenons l’exemple illustratif de la méthode PDP page 5. Dans celui-ci, nous avons observé que la PDP, en réalisant une moyenne, ne capte pas toute la dépendance d’une variable sur la prédiction. Affichons à présent le graphique d’ICE associé à la PDP.

Figure 24: Graphique de PDP (en rouge) et courbes ICE (en noir)

Cette fois, l’ICE capte l’effet de sur la prédiction pour chaque instance. En moyenne le graphique d’ICE est proche de 0, ce qui correspond à la PDP, mais le graphique d’ICE complet est proche du nuage de points représenté sur la figure 5. Il existe une adaptation de la méthode ICE, appelée c-ICE, permettant de centrer les courbes et ainsi de mieux voir les effets de chaque variable sur la prédicition. D’autres variantes s’appuyant sur les dérivées partielles telles que le d-ICE existent également.

Les courbes ICE présentent globalement les mêmes intérêts que le graphique PDP, notamment la simplicité d’implémentation et d’interprétation. L’autre avantage important est qu’elles ne masquent pas les effets hétérogènes du modèle considéré. Ainsi, en utilisant le graphique PDP, qui fournit un résumé de l’impact d’une variable sur la prédiction du modèle, et les courbes ICE, qui le précisent, nous obtenons une bonne explication globale des prédictions.

Cependant, tout comme le PDP, les courbes ICE reposent sur une hypothèse d’indépendance entre les différentes variables et ne tiennent pas compte de leur distribution réelle. Un autre inconvénient est le fait de ne pouvoir représenter ses courbes qu’en 2 ou 3 dimensions, du fait que l’humain ne sait pas se représenter des dimensions supérieures. De plus, le graphique contenant toutes les courbes ICE est vite surchargé lorsque le nombre d’individus étudié est grand.

Appendix D Annexe : la méthode ALE

Pour bien comprendre la méthode ALE, détaillée dans Apley (2016), reprenons la formule de la PDP. La PDP associée aux variables repose sur le calcul de

(14)

pour chaque point de la distribution marginale de la variable . Le -plot, lui repose sur le calcul de la moyenne des prédictions sur la distribution conditionnelle, à savoir:

(15)

Finalement, pour le graphique ALE, il nous faut définir une borne pour délimiter l’intervalle sur lequel on va faire la moyenne des différences de prédiction. Le calcul est alors le suivant (avant de centrer le résultat):