Les biais de l’IA : quels leviers pour les maîtriser ?

  • Romain Lamotte , Associé |

9 min de lecture

Algorithmes et intelligence artificielle influencent d’ores et déjà de nombreux aspects de notre vie : les films que nous regardons, la musique que nous écoutons, les personnes que nous rencontrons et même notre accès à un crédit. Progressivement, nous leur avons octroyé la possibilité de prendre des décisions en notre nom (et au nom de l’entreprise) sur ces sujets, comme pour de nombreux autres domaines, en raison des gains qu’ils sont en mesure d’offrir en termes d'efficacité et de rapidité de prise de décision.

Alors que la dépendance à l'égard de l’intelligence artificielle ne cesse de croître, il devient légitime de se poser la question des risques d'une telle dépendance. Une meilleure compréhension de notre perception de l’IA est essentielle, précisément en raison de l'aura d'objectivité et d'infaillibilité que notre culture attribue à celle-ci, peut-être de manière abusive. Pour beaucoup, les algorithmes sont considérés comme impartiaux et neutres, et représentent une sorte de juge de paix incorruptible car construits sur les mathématiques. Pourtant, la réalité est quelque peu différente : à l’inverse de la plupart des systèmes experts construits sur des règles spécifiées à priori, l’IA apprend des données du passé et détermine elle-même les règles de décision qui permettent de reproduire ce passé. Sous l’hypothèse que les mêmes causes produisent les mêmes effets, l’IA peut alors utiliser ces mêmes règles pour prédire l’avenir. Mais ce système d’apprentissage est alimenté, entraîné et interprété par un humain et de fait, presque par nature, potentiellement parsemé de biais, conscients et inconscients.

Quelles conséquences ?

Le Future of Privacy Forum[1], un think tank, a identifié quatre principaux types de préjudices, ou conséquences non intentionnelles, que les biais d’IA peuvent causer :

La perte d'opportunité

À titre d’exemple, des algorithmes d'embauche biaisés peuvent empêcher certains groupes d'accéder aux possibilités d'emploi. Ce fut notamment le cas chez Amazon[2]  il y a quelques années, qui a été contraint de mettre hors service un algorithme ayant tendance à écarter les femmes des entretiens d’embauche. Des préjugés semblables pourraient empêcher les gens d'accéder à d'autres possibilités comme les études supérieures, les programmes d'aide sociale, les régimes de soins de santé et les prêts bancaires. Concernant Amazon, une analyse à posteriori avait identifié la source probable du biais : l’algorithme avait été entrainé sur une base de CVs essentiellement masculins.

La perte économique

Les écarts de prix et la disponibilité du crédit sont deux des exemples les plus courants de pertes économiques. Un exemple très concret peut être celui de Kevin Johnson, un Afro-Américain, qui a vu sa limite de crédit considérablement réduite, passant de $10 800 à $3 800. La raison ? Il avait pour habitude de faire du shopping dans des endroits où la clientèle avait statistiquement de mauvais antécédents en matière de remboursement de crédit[3].

Le préjudice social

Parmi les exemples de préjudices sociaux, mentionnons les préjugés de confirmation, les stéréotypes et d'autres phénomènes qui ont une incidence sur la façon dont les individus s'organisent et entretiennent des relations entre eux. Un exemple simple est notre fil d’actualité Facebook qui se nourrit de notre propre activité en ligne. De fait, notre fil nous propose les contenus que nous sommes les plus susceptibles de voir, et de lire des idées qui confirment nos propres croyances sur le monde, qu'elles soient biaisées ou non. Toute recommandation future sera également conforme à notre point de vue, creusant là aussi les inégalités dans nos sociétés.

La perte de liberté

Le préjudice le plus grave de tous est la perte de liberté. Certains états des Etats-Unis ont autorisé l’utilisation d’un algorithme prédictif de récidive, dans certaines cours de justice. Ce type d’algorithme, ses applications et les conséquences qui en découlent sont bien sûr controversées[4]. Les possibles biais statistiques sur lesquels reposent l’apprentissage de ces algorithmes sont susceptibles de conduire à des décisions de justice prononcées en partie sur des critères d’origine sociale ou ethnique.

Qu’est-ce qu’un biais ?

Les biais cognitifs sont des schémas de pensée répétés qui mènent à des conclusions inexactes et subjectives. Le biais de confirmation, par exemple, fait référence à la tendance du cerveau à rechercher et à se concentrer sur l'information qui soutient ce que quelqu'un croit déjà, tout en ignorant les faits qui vont à l'encontre de ces croyances, malgré leur pertinence. Le biais d'attribution quant à lui se produit lorsqu'une personne essaie d'attribuer des raisons ou des motivations à ses actions ou à celles d'autrui, sans que ces raisons ou motivations ne reflètent forcément la réalité.

Les biais cognitifs peuvent nous aider à prendre des décisions plus rapidement, mais parfois au détriment de toute rationalité. Au total, 180 biais altérant notre jugement ont été recensés à ce jour. Un chiffre impressionnant qui amène avec lui une remise en question de la justesse et de l’impartialité de nos prises de décision quotidiennes.

Pour autant, les biais dits cognitifs ne représentent pas la seule définition de ce qu’est un biais. En statistiques par exemple, la collecte de données auprès d’un échantillon non représentatif de la population générale constitue un "biais d'échantillonnage". Les résultats produits ne peuvent pas conduire à des conclusions se rapportant à l’ensemble de la population.

Il faut alors revenir sur les principes de base des solutions d’Intelligence Artificielle pour comprendre les implications que peuvent avoir l’ensemble de ces biais. Tout d’abord, une intelligence artificielle est conçue par un humain. Elle peut, de fait, devenir une loupe grossissante de ses propres biais. Parmi ceux-là, mentionnons qu’en la matière, on ne trouve que ce que l’on cherche : une IA ne fait que reproduire ce pour quoi elle a été développée et entraînée, elle ne répond qu’à la question qui lui est posée, il faut donc veiller à ce que celle-ci soit correctement formulée.

Ensuite, une IA est entraînée sur la base d’exemples connus, sélectionnés par un humain. Il est donc essentiel que ces exemples soient fiables, en quantité suffisante, et eux-mêmes non entachés de biais – biais d’échantillonnage par exemple.

Pour implémenter une solution d’intelligence artificielle, trois étapes sont nécessaires :

Le recueil et la sélection des données

Cette première étape consiste à collecter les données qui seront utilisées pour entraîner l’IA. Si l’on prend l’exemple d’une solution dont l’objectif est de classer des emails, les données d’entraînement (ou d’apprentissage) seront une multitude d’emails (bien sûr anonymisés) dont les catégories sont connues et annotées par un humain. Pour d’autres, on considérera les exemples d’images, ou encore de voix. Il est clair qu’au moins dans certains cas, ces annotations peuvent être entachées d’une certaine subjectivité.

L’entraînement de l’algorithme

A partir des données d’entraînement, l’algorithme va chercher à optimiser ses paramètres afin de reproduire la décision attendue. Rappelons-nous que nous lui fournissons des exemples contenant les bonnes réponses : catégories d’emails, images annotées… La qualité des prédictions obtenues sera mesurée à l’aide de métriques de performances : proportion de bonnes classifications, ou encore différence par rapport à la valeur attendue dans le cas de problèmes de régression. Le choix de ces métriques et le seuil d’acceptabilité sont à l’appréciation des développeurs en charge de l’application. La méconnaissance des algorithmes et de leur capacité à reproduire des décisions, le choix des métriques de performance, le sur-apprentissage, sont autant de causes de pertes de performances sinon de biais.

L’interprétation du résultat et l’amélioration continue

La machine propose, l’humain dispose ! Par nature, une solution d’IA propose une décision sur de nouvelles observations, après avoir été entraînée sur des exemples. Il arrive que la proposition soit peu clairement tranchée, et que l’humain ait à faire appel à sa subjectivité pour prendre une décision. En phase de production, et afin d’améliorer ses performances, il est fréquent que l’on « informe » l’IA de ses propositions erronées, voire qu’on l’alimente avec de nouveaux exemples. Dans ce cas se pose à nouveau le problème des biais introduits par l’humain dans les nouvelles informations fournies.

Dans chacune de ces trois étapes d’implémentation d’une IA, l’humain est au centre. Il doit être le garant de la qualité de l’IA développée comme de la bonne utilisation des résultats produits, et prendre soin d’évaluer les biais potentiels qui auraient pu être introduits.

Quels leviers pour y remédier ?

Partant de ce constat, plusieurs bonnes pratiques peuvent être mises à exécution afin de limiter et de prévenir au maximum les biais d’échantillonnages et cognitifs. À ce titre, nous avons listé 10 règles d’or à respecter lors d’un projet d’IA :

  1. Sélectionner des données réelles, provenant de la même source que celles qui seront utilisées en production : plus les données d’entraînement seront fidèles à celles de la mise en production, plus les résultats seront corrects
  2. Utiliser des données récentes et les actualiser autant que faire se peut : car des données passées ne peuvent refléter exactement les données actuelles (évolution des pratiques, des façons de penser etc.)
  3. Avoir une quantité suffisante de données : de manière à en dégager des tendances objectives
  4. Partir d’un besoin métier et identifier l’utilisateur cible avec précision : il est en effet beaucoup plus difficile d’élaborer un système d’IA si son objectif n’est pas tangible et clairement défini. Par ailleurs, connaître l’utilisateur cible, qui fera donc partie intégrante de l’amélioration continue de l’IA, permet de prendre en considération ses potentiels biais
  5. Communiquer auprès des personnes en charge de l’entraînement et les former en amont : de même, plus la communication et les bonnes pratiques à adopter seront claires, plus les doutes et les erreurs seront écartés lors de l’entraînement
  6. Faire usage de la validation indépendante : les performances d’un algorithme doivent être validées sur des données indépendantes, n’ayant pas servi à son apprentissage
  7. Former une équipe multidisciplinaire : il paraît essentiel d’être en mesure d’apporter un regard critique sur la solution développée et ses performances, et de toujours veiller à ce qu’elle réponde à la question posée, et que les résultats obtenus fassent sens et ne risquent pas d’être entachés de biais
  8. S’assurer que les variables utilisées pour l’entraînement sont cohérentes et pertinentes avec le résultat visé : pour un chatbot par exemple, il convient de préparer l’algorithme à des questions auxquelles il devra faire face lors de la mise en production
  9. Utiliser des outils pour identifier les biais : Lime, Open Scale, AI Fairness 360, …
  10. Enfin et surtout, éviter de trop faire confiance à l’IA et garder son esprit critique : en particulier pour l’utilisateur cible, car plus l’IA sera corrigée, plus celle-ci sera efficace.

Il y a donc un cadre à établir pour permettre la mise en œuvre de l’IA au sein de l’entreprise dans des conditions maîtrisées et responsables. Le choix des données, la construction et l’entraînement des modèles, l’interprétation des résultats obtenus et leur insertion dans les processus de décision sont autant d’enjeux de transformation qui restent encore trop souvent improvisés. Il est donc essentiel pour les entreprises de comprendre que les gains d’efficacité obtenus s’obtiennent souvent aujourd’hui au prix de risques opérationnels et réputationnels accrus.

Co-auteurs

Cet article a été rédigé en collaboration avec Frédéric Commo, Senior Manager Technology Transformation et Léo Arnold, Consultant Technology Transformation.