Diagram Illustration

Sommaire

Vous avez besoin de décomposer une décision complexe ? Essayez d'utiliser un arbre de décision. Lisez la suite pour découvrir tout ce qu'il y a à savoir sur les arbres de décision, y compris ce qu'ils sont, comment ils sont utilisés et comment en créer un.

Qu'est-ce qu'un arbre de décision ?

Un arbre de décision est un schéma représentant les résultats possibles d'une série de choix interconnectés. Il permet à une personne ou une organisation d'évaluer différentes actions possibles en fonction de leur coût, leur probabilité et leurs bénéfices. Il peut être utilisé pour alimenter une discussion informelle ou pour générer un algorithme qui détermine le meilleur choix de façon mathématique.

Un arbre de décision commence généralement par un nœud d'où découlent plusieurs résultats possibles. Chacun de ces résultats mène à d'autres nœuds, d'où émanent d'autres possibilités. Le schéma ainsi obtenu rappelle la forme d'un arbre.

Il existe trois types de nœuds différents : des nœuds de hasard, des nœuds de décision et des nœuds terminaux. Un nœud de hasard, représenté par un cercle, montre les probabilités de certains résultats. Un nœud de décision, représenté par un carré, illustre une décision à prendre, et un nœud terminal le résultat final d'un chemin de décision.

arbre de décision

Les arbres de décision peuvent aussi être dessinés avec des symboles d'organigramme. Certaines personnes jugent que ce procédé génère des schémas plus simples à lire et à comprendre.

Symboles des arbres de décision

Forme Nom Signification
nœud de décision Nœud de décision Indique une décision à prendre
arbre de décision avec nœud de hasard Nœud de hasard Illustre plusieurs résultats incertains
Branches alternatives Chaque branche indique un résultat ou une action possible
Alternative rejetée Illustre un choix qui n'a pas été retenu
arbre de décision avec nœud terminal Nœud terminal Indique un résultat final

Comment dessiner un arbre de décision ?

Pour dessiner un arbre de décision, choisissez d'abord un support. Vous pouvez le dessiner à main levée sur du papier ou sur un tableau blanc, ou vous pouvez utiliser un logiciel d'arbres de décision spécialisé. Dans tous les cas, voici les étapes à suivre :

1. Commencez par la décision principale. Dessinez une petite boîte pour la représenter, puis dessinez une ligne partant de la boîte vers la droite pour chaque solution ou action possible. Étiquetez-les.

comment dessiner un arbre de décision

2. Ajoutez des nœuds de hasard et de décision pour développer l'arborescence comme suit :

  • Si une autre décision est nécessaire, dessinez une autre boîte.
  • Si le résultat est incertain, dessinez un cercle (les cercles représentent les nœuds de hasard).
  • Si le problème est résolu, n'ajoutez rien (pour l'instant).

arbre de décision

À partir de chaque nœud de décision, dessinez les solutions possibles. À partir de chaque nœud de hasard, dessinez des lignes représentant les résultats possibles. Si vous avez l'intention d'évaluer vos options de façon numérique, ajoutez la probabilité de chaque résultat et le coût de chaque action.

3. Continuez à développer l'arbre jusqu'à ce que chaque ligne débouche sur un nœud terminal, indiquant qu'il n'y a plus de choix à faire ni de résultats possibles à prendre en considération. Ensuite, assignez une valeur à chaque résultat possible. Cela peut être un score abstrait ou une somme d'argent. Ajoutez des triangles pour signaler les nœuds terminaux.

comment dessiner un arbre de décision

Une fois l'arbre de décision terminé, vous pouvez commencer à analyser la décision qui s'impose à vous.

Exemple d'analyse d'un arbre de décision

En calculant l'utilité ou la valeur attendue de chaque choix de l'arbre, vous pouvez minimiser les risques et optimiser les chances de parvenir à un résultat satisfaisant.

Pour calculer l'utilité espérée d'un choix, il vous suffit de soustraire le coût de cette décision des bénéfices attendus. Les bénéfices attendus sont égaux à la valeur totale de tous les résultats qui pourraient être dus à ce choix, chaque valeur étant multipliée par la probabilité de réalisation du choix qui lui est associé. Voici comment nous calculerions ces valeurs pour l'exemple ci-dessus :

analyse d'un arbre de décision

Lors de l'identification du résultat le plus souhaitable, il est important de prendre en compte les préférences du décideur. Par exemple, certains peuvent préférer des options à faible risque tandis que d'autres sont prêts à prendre des risques pour gagner davantage.

Lorsque vous utilisez votre arbre de décision avec un modèle de probabilité, vous pouvez l'utiliser pour calculer la probabilité conditionnelle d'un événement, ou la probabilité qu'il ait lieu, à supposer qu'un autre événement se produise. Pour ce faire, il suffit de commencer par l'événement initial, puis de suivre le chemin depuis cet événement jusqu'à l'événement cible, en multipliant la probabilité de chacun de ces événements ensemble.

Utilisé ainsi, l'arbre de décision équivaut à un diagramme arborescent classique, schématisant les probabilités de certains événements, par exemple le fait de tirer à pile ou face deux fois.

diagramme arborescent

Avantages et inconvénients

La popularité des arbres de décision se justifie par les raisons suivantes :

  • Ils sont faciles à comprendre.
  • Ils peuvent être utiles avec ou sans données concrètes, et les données quelles qu'elles soient nécessitent une préparation minimale.
  • De nouvelles options peuvent être ajoutées aux arbres existants.
  • Ils permettent de sélectionner l'option la plus appropriée parmi plusieurs.
  • Il est facile de les associer à d'autres outils de prise de décision.

Les arbres de décision peuvent toutefois devenir extrêmement complexes. Dans ce cas, un diagramme d'influence, plus compact, peut représenter une bonne alternative. Les diagrammes d'influence se focalisent sur les décisions, données et objectifs critiques.

diagramme d'influence

Les arbres de décision dans l'apprentissage automatique et l'exploration de données

Un arbre de décision peut également servir à bâtir des modèles prédictifs automatisés, dont les applications peuvent concerner l'apprentissage automatique, l'exploration de données ou les statistiques. Cette méthode, appelée « apprentissage par arbre de décision », s'appuie sur les observations relatives à un élément pour prédire la valeur de cet élément.

Dans ces arbres de décision, les nœuds représentent les données plutôt que les décisions. Ce type d'arbre est aussi appelé arbre de classification. Chaque branche contient un ensemble d'attributs (règles de classification), associés à une étiquette de classe spécifique que l'on retrouve à l'extrémité de la branche.

Ces règles, également appelées règles de décision, peuvent être exprimées sous forme de clause « si... alors », où chaque décision ou valeur de donnée forme une clause, par exemple : « si les conditions 1, 2 et 3 sont remplies, alors l'issue x sera le résultat avec une certitude de y. »

Chaque donnée supplémentaire aide le modèle à prédire avec davantage de précision à quel ensemble limité de valeurs le sujet en question appartient. Cette information peut alors être utilisée comme entrée dans un modèle de prise de décision plus vaste.

Parfois, la variable prédite est un chiffre réel, par exemple un prix. Les arbres de décision avec une infinité de résultats possibles sont appelés des arbres de régression.

Pour une précision accrue, on regroupe quelquefois plusieurs arbres dans des méthodes d'ensembles :

  • L'ensachage (ou « bagging ») crée de multiples arbres en ré-échantillonnant les données source, puis fait voter ces arbres pour parvenir à un consensus.
  • Une classification par forêts aléatoires consiste en de multiples arbres conçus pour accroître le taux de classification.
  • Les arbres boostés peuvent être utilisés pour des arbres de régression et de classification.
  • Les arbres d'une forêt de rotation sont tous formés en utilisant l'analyse en composantes principales (Principal component analysis, PCA) sur une portion aléatoire des données.

Un arbre de décision est considéré comme optimal lorsqu'il représente la plus grande quantité de données possible avec un nombre minimal de niveaux ou de questions. Les algorithmes conçus pour créer des arbres de décision optimisés incluent notamment CART, ASSISTANT, CLS et ID3/4/5. Il est également possible de créer un arbre de décision en générant des règles d'associations, en plaçant la variable cible sur la droite.

Chaque méthode doit déterminer quelle est la meilleure façon de répartir les données à chaque niveau. Les méthodes courantes pour ce faire comprennent l'indice d'impureté de Gini, le gain d'information et la réduction de la variance.

L'utilisation des arbres de décision dans l'apprentissage automatique présente plusieurs avantages :

  • Le coût d'utilisation de l'arbre pour prédire des données diminue à chaque point de donnée supplémentaire.
  • Ils fonctionnent aussi bien pour les données de catégorie que numériques.
  • La modélisation des problèmes est possible avec plusieurs données de sortie.
  • Ils utilisent un modèle de boîte blanche, ce qui rend les résultats faciles à expliquer.
  • La fiabilité d'un arbre peut être testée et quantifiée.
  • Ils tendent à être précis, même si les hypothèses des données source ne sont pas respectées.

Mais ils présentent aussi quelques inconvénients :

  • Lors de la gestion de données de catégorie comportant plusieurs niveaux, le gain d'information est biaisé en faveur des attributs disposant du plus de niveaux.
  • Les calculs peuvent devenir compliqués lorsqu'une certaine incertitude est de mise et que de nombreux résultats sont liés entre eux.
  • Les conjonctions entre les nœuds sont limitées à l'opérateur « ET », alors que les graphiques décisionnels permettent de connecter des nœuds avec l'opérateur « OU ».